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(57) Abstract: The invention relates to cell structures which can be variably arranged in relation to each other. The invention notably 
specifies how and with which units a sequence is to be partitioned for this purpose and with such cell structures. 

(57) Zusam menfassung: Die vorliegende Erfindung befasst sich mit Zellstrukturen, bei denen eine wechselnde Anordnung zuein- 
ander moglich ist. Es wird angegeben, wie und mit welchen Einheiten hierbei und hierfur eine Sequenz zu parti tionieren ist 
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SEQUENZ-PARTITIONIERUNG AUF ZELLSTRUKTUREN 
Aufgabe der Erfindung und Anwendungsbereiche 

Die vorliegende Erfindung erstreckt sich auf das Gebiet von 
programmierbaren und insbesondere wahrend des Betriebes umpro- 
grammierbaren arithmetischen und/oder logischen Bausteinen 
(VPUs) mit Vielzahl von arithmetischen und/oder logischen Ein- 
heiten, deren Verschaltung ebenfalls programmierbar und wah- 
rend des Betriebes umprogrammierbar ist. Derartige logische 
Bausteine sind unter dem Oberbegriff FPGA von verschiedenen 
Firmen verfugbar. Weiterhin sind mehrere Patente veroffent- 
licht, die spezielle arithmetische Bausteine mit automatischer 
Datensynchronisation und verbesserter arithmetischen Datenver- 
arbeitung offenlegen. 

Samtliche beschriebene Bausteine besitzen eine zwei- oder 
mehrdimensionale Anordnung von logischen und/oder arithmeti- 
schen Einheiten (PAEs) , die uber Bussysteme miteinander ver- 
schaltbar sind. 

Kennzeichnend fur die der Erfindung entsprechenden Bausteine 
ist, daft sie entweder die nachfolgend auf gelisteten Einheiten 
besitzen, oder zur erf indungsgemafien Anwendung diese Einheiten 
programmiert oder (auch extern) hinzugefugt werden: 

1. mindestens eine Einheit (CT) zum Laden der Konf igurations- 
daten. 

2 . PAEs . 

3. mindestens ein Interface (IOAG) zu einem oder mehreren 
Speichern und/oder peripheren Geraten. 

Aufgabe der Erfindung ist es, ein Programmierverf ahf en zur 
Verfugung zu stellen, das es ermoglicht die beschriebenen Bau- 
steine in gewohnlichen Hochsprachen effizient zu programmieren 
und dabei die Vorteile der durch die Vielzahl von Einheiten 
entstehende Parallelitat der beschriebenen 
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Bausteine weitgehenci automatisch, vollstandig und effizient zu 
nutzen. 

Stand der Technik 

Bausteine der genannten Gattung werden zuineist unter 
Verwendung gewohnlicher Datenf lussprachen programmiert. Dabei 
treten zwei grundlegende Probleme auf: 

1. Die Programmierung in Datenf lussprachen ist fur 
Programmierer gewohnungsbediir f tig, tief sequentielle Aufgaben 
lassen sich nur sehr umstandlich beschreiben. 

2. GroBe Applikationen und sequentielle Beschreibungen lassen 
sich mit den bestehenden Obersetzungsprogrammen (Synthese- 
Tools) nur bedingt auf die gewtinschte Ziel technologie abbilden 
(synthetisieren) . 

Fur gewohnlich werden Applikationen in mehrere 
Teilapplikationen partitioniert, die dann einzeln auf die 
Zieltechnologie synthetisiert werden (Fig. 1) . Die einzelnen 
Binarcodes werden dann auf jeweils einen Baustein geladen. 
Wesentliche Voraussetzung der Erfindung ist das in DE 44 16 
881 beschriebene Verfahren, das es ermoglicht, mehrere 
partitionierte Teilapplikationen innerhalb eines Bausteines zu 
nutzen, indem die zeitliche Abhangigkeit analysiert wird und 
uber Steuersignale sequentiell die jeweils er f orderlichen 
Teilapplikationen bei einer ubergeordneten Ladeeinheit 
angefordert und von dieser daraufhin auf den Baustein geladen 
werden . 

Existierende Synthese-Tools sind nur bedingt in der Lage 
Programm-Schleif en auf Bausteine abzubilden (Fig. 2 0201) . 
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Dabei werden FOR-Schleif en (0202) als Primitiv-Schleire haufig 
noch dadurch unxzerstiit zt , dafi die Schleife vollkommen auf die 
Ressourcen des Zielbausteines ausgewaizt werden. 

WHIIX-Schieif en (0203) besitzen im Gegensatz zu FCR-Schleif en 
keinen konstanten Abbruchswert . Vielmehr wird durch eine 
Bedingung evaluiert, wann der Schleif enabbruch stattfindet. 
Daher ist gewohnlicherweise (wenn die Bedingung nicht konstant 
ist) zur Synthesezeit nicht bekannt, wann die Schleife 
abbricht. Durch das dynamische Verhaiten konnen Synthese-Tools 
diese Schleifen nicht fest auf Hardware abgebildet d.h. auf 
einen Zielbaustein ubertragen werden. 

Rekursionen sind mit Synthesewerkzeugen nach dem Stand der 
Technik grundsatzlich nicht auf Hardware abbildbar, wenn die 
Rekursionstief e nicht zur Synthesezeit bekannt und damit 
konstant ist. Bei der Rekursion werden mit jeder neuen 
Rekursionsebene neue Ressourcen aliokiert. Das wurde bedeuten, 
dafi mit jeder Rekursionsebene neue Hardware zur Verfugung 
gestellt werden rauft, was aber dynamisch nicht mdglich ist. 

Selbst einfache Grundstrukturen sind von Synthesetoois nur 
dann abbildbar, wenn der Zielbaustein ausreichend groft ist, 
d.h. ausreichende Ressourcen bietet. 

Einfache zeitliche Abhangigkeiten (0301) werden durch heutige 
Synthese-Tools nicht in mehrere Teilapplikationen 
partitioniert und sind deshalb nur als Ganzes auf einen 
Zielbaustein ubertragbar. 

Bedingte Ausfuhrungen (0302) und Schleifen iiber Bedingungen 
(0303) sind ebenfalls nur abbildbar, wenn ausreichende 
Ressourcen auf dem Zielbaustein existieren. 



Erfindungsgemafles Verfahren 
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Durch das in DE 44 16 881 beschriebene Verfahren ist es 
moglich Beciingungen zur Lauf zeit" innerhalb der - 
Hardwares trukturen der genannten Bausceine zu erkennen und 
derart dynamisch darauf zu reagieren, dafi die Funktion der 
Hardware entsprechend der eingetretenen Bedingung modifiziert 
wird, was im wesentlichen durch das Konf igurieren einer neuen 
Struktur geschieht. 

Ein wesentlicher Schritt in dem er f indungsgemaften Verfahren 
ist die Partitionierung von Graphen (Applikationen) in 
zeitlich unabhangige Teilgraphen ( Teilapplikationen) . 

Der Begriff "zeitliche Unabhangigkei t " wird damit definiert, 
dafi die Daten, die zwischen zwei Teilapplikationen ubertragen 
werden durch einen Speicher, gleich weicher Ausges taltung 
(also auch mittels einfacher Register) , entkoppelt werden. 
Dies ist besonders an den Stellen eines Graphen moglich, an 
denen eine klare Schnittstelle mit einer begrenzten und 
moglichst minimalen Menge von Signalen zwischen den beiden 
Teilgraphen besteht. 

Weiterhin sind besonders Stellen im Graphen geeignet, die 
folgende Merkmale aufweisen: 

1. Es befinden sich wenig Signale oder Variablen zwischen den 
Knot en. 

2. Es werden wenig Daten uber die Signale oder Variablen 
ubertragen. 

3. Es gibt keine Ruckkopplungen, d.h. keine Signale oder 
Variablen die umgekehrte Richtung zu den Restlichen laufen. 

Die zeitliche Unabhangigkei t kann in grofien Graphen durch das 
gezielte Einfugen von klar definierten und moglichste 
einfachen Schnittstellen zum Speichern von Daten in einen 
Zwischenspeicher herbeigef uhrt werden (vgl. S„ in Fig. 4). 
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Schleifen weisen of tmals eine scarke zeitliche Unabhangigkeit 
zum restlichen Algorithmus auf , da sie lange Zeit iiber einer 
bestimmten Menge von (zumeist) in der Schleife lo.kalen . 
Variablen arbeiten und nur beim Schlei f eneintritt und beim 
Verlassen der Schleife eine Obertragung der Operanden bzw. des 
Ergebnisses erfordern. 

Durch die zeitliche Unabhangigkeit wird erreicht, dafi nach der 
vollstandigen Ausfuhrung einer Teilappli kation die 
nachfolgende Teilapplikation geiaden werden kann, ohne dafi 
irgendwelche weiteren Abhangigkei ten oder Einflusse auftreten. 
Beim Speichern der Daten in den genannten Speicher kann ein 
Status-Signal (Trigger, vgl. FACT 08 ) generiert werden, das die 
ubergeordneten Ladeeinheit zum Nachladen der nachsten 
Teilapplikation auffordert. Der Trigger kann bei der 
Verwendung von einfachen Registern als Speicher immer 
generiert werden, wenn das Register beschrieben wird. Bei der 
Verwendung von Speichern, i.b. von solchen die nach dem FIFO- 
Prinzip arbeiten, ist die Generierung des Triggers von 
mehreren Bedingungen abhangig. Folgende Bedingungen konnen 
beispielsweise einzeln oder kombiniert ein Trigger erzeugen: 

- Ergebnis-Speicher voll 

- Operanden-Speicher leer 

- keine neuen Operanden 

- Beliebige Bedingung innerhalb der Teilapplikation, generiert 
durch z . B . 

* Vergleicher (gleich, grofter, etc.) 

* Zahler (Oberlauf) 

* Addierer (Uberlauf) 

Eine Teilapplikation wird im folgenden auch Modul genannt, urn 
die Verstandlichkeit aus Sicht der klassischen Programmierung 
zu erhohen. Aus demselben Grund werden Signale im folgenden 
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auch Variablen genannt . Dabei unterscheiden sich diese 
Variablen in einem Punkt weseh'tlich von herkomml~ichen 
Variablen: Jeder Variable ist ein Statussignal (Ready) 
zugeordnet, das anzeigt, ob diese Variable einen gultigen Wert 
besitzt. Wenn ein Signal einen gultigen (berechneten) Wert 
besitzt, ist das Statussignal Ready; wenn das Signal keinen 
giiltigen Wert besitzt (Berechnung noch nicht abgeschlossen) , 
ist das Statussignal Not_Ready. Das Prinzip ist ausfuhrlich in 
der Patentanmeldung P196 51 075.9 beschrieben. 

Zusammenf assend kann den Triggern folgende Funktionen 
zugeordnet werden: 

1. Steuerung der Datenverarbeitung als Status einzelner PAEs 

2. Steuerung der Umkonf iguration der PAEs (zeitliche Abfolge 
der Teilapplikationen) 

Insbesondere die Abbruchkriterien von Schleifen (WHILE) und 
Rekursionen, sowie bedingte Sprunge in Teilapplikationen 
werden von Triggern realisiert. 

In Fall 1 werden die Trigger zwischen PAEs ausgetauscht / in 
Fall 2 werden die Trigger von den PAEs zur CT gesendet. 
Wesentlich an der Erfindung ist, dafi der Obergang zwischen 
Fall 1 und 2 im wesentlichen von der Anzahl der gerade 
laufenden Teilapplikationen in der Matrix von PAEs abhangt. 
Mit anderen Worten, Trigger werden zu den Teilapplikationen 
gesendet, die auf den PAEs aktuell ausgefuhrt werden. Ist eine 
Teilapplikation nicht konf iguriert, so werden die Trigger an 
die CT gesendet. Wichtig dabei ist: Ware auch diese 
Teilapplikation konf iguriert, so wiirden die entsprechenden 
Trigger direkt an die entsprechenden PAEs gesendet werden. 

Dadurch ergibt sich eine automat ische Skalierung der 
Rechenleistung bei steigender PAE-Grbfte, bzw. der Kaskadierung 
mehrerer Matrizen aus PAEs . Es wird keine Umkonf igurationszeit 
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mehr benotigt, sondern die Trigger werden direkt an die nun 
bereits konf igurierten PAEs gesendet. 

Wave-Reconfiguration 

Durch eine geeignete Hardwarearchitektur (vgl. Fig. 10/11) ist 
es mbglich mehrere Module zu iiberlappen. D.h. mehrere Module 
sind gleichzeitig in den PAEs vorkonf iguriert und es kann mit 
minimal em Zeitaufwand zwischen den Konf igurationen 
umgeschaltet werden, so daii aus einer Menge von mehreren 
Konf igurationen pro PAE immer genau eine Konf iguration 
aktiviert ist. 

Wesentlich ist, daft dabei in einer Menge von PAEs in die ein 
Modul A und B vorkonf iguriert ist, ein Teil der Menge mit 
einem Teil von A und eine anderer Teil der Menge gleichzeitig 
mit einem Teil B aktiviert sein kann. Dabei ist die Trennung 
der beiden Teile exakt durch die PAE gegeben, in der der 
Umschaltezustand zwischen A und B auftritt. Das bedeutet, dafi 
ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei 
denen vor diesem Zeitpunkt A zur Ausfiihrung aktiviert war B 
aktiviert ist und bei alien anderen PAEs nach diesem Zeitpunkt 
immer noch auf A aktiviert ist. Mit steigender Zeit wird bei 
immer mehr PAEs B aktiviert. 

Die Umschaltung erfoigt aufgrund von bestimmten Daten, 
Zustanden die sich aus der Berechnung der Daten ergeben oder 
aufgrund beliebiger anderer Ereignisse, die beispielsweise von 
extern oder der CT generiert werden. 

Das bewirkt, daft direkt nach Verarbeitung eines Dacenpaketes 
zu einer anderen Konf iguration umgeschaltet werden kann. 
Gleichzeitig/Alternativ kann ein Signal (RECONFIG-TRIGGER) an 
den CT gesendet werden, das das Vorladen von neuen 
Konf igurationen durch den CT bewirkt. Das Vorladen kann dabei 
auf anderen von der aktuellen Datenverarbeitung abhangigen 
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Oder unabhangigen PAEs erfolgen. Durch eine Entkopplung der 
aktiven Kon'f iguration' von den zur Unkonf iguration zur" 
Verfugung stehenden Konf igurationen (vgl. Fig, 10/11) konnen 
auch gerade arbeitende (aktive) PAEs,- insbesondere auch die 
PAE, die den RECONFIG- TRIGGER erzeugce, mit neuen 
Konf igurationen geladen werden. Dies ermoglicht eine mit der 
Datenverarbeitung uberlappende Konf iguration. 

In Figur 13 ist das Grundprinzip der Wave-Reconfiguration 
(WRC) dargestellt. Dabei wird von einer Reihe von PAEs (PAE1- 
9) ausgegangen, durch die die Daten pipelineahnlich laufen. Es 
wird ausdriicklich darauf hingewiesen, dafi WRC nicht auf 
Pipelines beschrankt ist und die Vernetzung und Gruppierung 
der PAEs jede beliebige Form annehmen kann. Die Darstellung 
wurde jedoch gewahlt urn ein einf aches Beispiel zum besseren 
Verstandnis zu zeigen. 

In Fig. 13a lauft ein Datenpaket in die PAE1. Die PAE besitzt 
4 mogliche Konf igurationen (A, F, H, C) , die durch eine 
geeignete Hardware (vgl. Fig. 10/11) wahlbar sind. Die 
Konf iguration F ist in in PAE1 fur das aktuelle Datenpaket 
aktiviert (schraffiert dargestellt) . 

Im nachsten Takt lauft das Datenpakt nach PAE 2 und ein neues 
Datenpaket erscheint in PAE1. Auch in PAE 2 ist F aktiv. 
Zusammen mit dem Datenpaket erscheint ein Ereignis (tl) bei 
PAE1. Das Ergnis entsteht durch Eintreffen eines beliebigen 
Ereignisses von aussen bei der PAE (z.B. eines Statusflags 
Oder Triggers) oder wird innerhalb der PAE durch die 
ausgefuhrte Berechnung generiert. 

In Fig. 13c wird in PAE1 aufgrund des Ereignisses (tl) die 
Konf iguration H aktiviert, gleichzeitig erscheint ein neues 
Ereignis (T2) / das im nachsten Takt (Fig. 13d) die Aktivierung 
von Konf iguration A bewirkt. 



- 8 / 96 - 



WO 00/77652 



PCT/DEOO/01869 



In Fig. 13e trifft (t3) bei PAE1, die das Oberschreiben von F 
mit G bewirkt (Fig. 13f ) . Durch das Eintreffen von (f4) wird G 
aktiviert (Fig. 13g) . (?5) bewirkt das Laden von K anstelle 
von C (Fig 13h,i) und (To) ladt und startet F anstelle von H 
(Fig. 13j) . 

In den Figuren 13g*) bis 13j*) wird verdeutlicht , dafi beim 
Durchlaufen einer Wave-Reconfiguration nicht alle PAEs nach 
demselben Muster arbeiten mussen. Wie eine PAE von einer Wave- 
Reconfiguration konfiguriert wird, ist prinzipiell abhangig 
von ihrer eigenen Konf iguration . Hier soli dargestellt werden, 
daft PAE 4 bis PAE 6 derart konfiguriert sind, daft sie anders auf 
die Ereignisse reagieren, als die ubrigen PAEs. Beispielsweise 
wird in Fig. 13g*) aufgrund von Ereignis T2 nicht A sondern H 
aktiviert (vgl. Fig. 13g) . Dasselbe gilt fur 13h*). Aufgrund 
von Ereignis T3 wird in Fig. 13i*) nicht G geladen, sondern 
die Konf iguration F bleibt bestehen und A bleibt aktiviert. In 
Fig. 13j*) ist bei PAE 7 angedeutet, dafi Ereignis T3 wieder das 
Laden von G auslosen wird. In PAE 4 , bewirkt das Ereignis T4 
das Aktivieren von F anstatt der Konf iguration G (vgl. Fig. 



In Fig. 13 bewegt sich eine Welle von Umkonf igurationen 
aufgrund von Ereignissen durch eine Menge von PAEs, die 2- 
oder mehrdimensional ausgestaltet sein kann. 

Es ist nicht zwingend notwendig, dafi eine einmal s tattf indende 
Umkonf iguration durch die gesamten Fluft hinweg stattfindet. 
Beispielsweise konnte die Umkonf iguration mit der Aktivierung 
von A aufgrund des Ereignisses <T2) nur lokal in den PAEsl bis 
3 und PAE 7 stattfinden, wahrend in alien anderen PAEs 
weiterhin die Konf iguration H aktiviert bleibt. 
Mit anderen Worten: 



13j) . 
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a) Es ist mdglich, dafl ein Ereigniss nur lokal auftritt unci 
daher" nur lokal eine ~ Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat mdglicherweise keine Auswirkung 
auf manche PAEs; abhangig vom ausgefuhrten Algorithmus . 

Bei den PAEs die nach (T2) weiterhin H aktiviert halten, kann 
selbstverstandlich das Eintreffen des Ereignisses (T3) 
vollkommen andere Auswirkungen haben, (I) wie etwa das 
Aktivieren von C statt dem Laden von G, (ii) andererseits 
konnte (T3) auf diese PAEs auch gar keinen EinfluS haben. 



Das Prozessormodell 

Die in den folgenden Figuren gezeigten Graphen besitzen als 
Graphenknoten immer in Modul, wobei davon ausgegangen wird, 
daii mehrere Module auf einen Zielbaustein abgebildet werden 
konnen. Das heiiit/ obwohl alle Module zeitlich voneinander 
unabhangig sind, . wird nur bei den Modulen eine Umkonf iguration 
durchgefiihrt, und/oder ein Datenspeicher eingefug^, die mit 
einem vertikalen Strich und At markiert sind. Dieser Punkt 
wird Umkonf igurationszeitpunkt genannt . 

Der Umkonf igurationszeitpunkt ist abhangig von den bestimmten 
Daten Oder den Zustanden die sich aus der Verarbeitung der 
bestimmten Daten ergeben. 

Das bedeutet zusammenf assend: 

1- Grofte Module kdnnen an geeigneten Stellen partitioniert 

werden und in kleine zeitlich voneinander unabhangige Module 

zerlegt werden, die optimal in das Array aus PAEs passen. 

2. Bei kleinen Modulen die gemeinsam auf einen Zielbaustein 

abgebildet werden konnen, wird auf die zeitliche 
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Unabhangigkeit verzichtet. Dadurch werden 

Konf igurationsschritte eingespart und die Datenverarbeitung 
beschleunigt . 

3. Die Umkonf igurationszeitpunkte werden entsprechend der 
Ressourcen der Zielbausteine positioniert . Dadurch ist eine 
beliebige Skalierung der Graphenlange gegeben. 

4. Module konnen iiberiagert konfiguriert werden, 

5. Die Umkonf iguration von Modulen wird durch die Daten selbst 
oder dem Ergebnis der Verarbeitung der Daten gesteuert. 

6. Die von den Modulen generierten Daten werden gespeichert 
und die zeitlich nachf clgenden Module lesen die Daten aus 
diesem Speicher aus und speichern die Ergebnisse wiederum in 
einen Speicher oder geben das Endergebnis an die Peripherie 
aus . 

Die Zustandsinformationen des Prozessormodells 

Zur Bestimmung der Zustande innerhalb eines Graphen werden die 
Statusregister der einzelnen Zellen (PAEs) uber ein zusatzlich 
zum Datenbus (0801) existierendes, frei rout- und 
segmentierbares Status-Bussystem (0802) alien anderen 
Rechenwerken zur Verfugung gestellt (Fig. 8b) . Das bedeutet, 
dafi eine Zelle (PAE X) die Statusinf ormation einer andern 
Zelle (PAE Y) evaluieren kann und dementsprechend die Daten 
verarbeitet. Urn den Unterschied zu bestehenden 
Parallelrechnersystemen zu verdeutlichen, ist in Fig. 8a der 
Stand der Technik angegeben. Dabei ist ein 

Multiprozessorsystem gezeigt, dessen Prozessoren uber einen 
gemeinsamen Datenbus (0803) miteinander verbunden sind. Ein 
explizites Bussystem fur den synchronen Austausch von Daten 
und Status existiert nicht. 

Mit anderen Worten ausgedriickt, stellt das Netzwerk der 
Statussignale (0802) ein frei und gezielt verteiltes 
Statusregister eines einzelnen herkommlichen Prozessors (oder 
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mehrerer Prozessoren eines SMP-Computers J dar. Der Status 
jeder einzelnen ALU (bzw. jedes einzelnen Prozessors) und 
insbesondere jede einzelne Information des Status stent 
jeweils dem oder den ALUs (Prozessoren) zur Verfugung, die die 
Information bendtigen. Dabei entsteht keine zusatzliche 
Programm- oder Kommunikationslauf zei t (abgesehen von den 
Signalllauf zeiten) urn die Inf ormationen zwischen den ALUs 
(Prozessoren) auszutauschen. 

Abschlieflend soil angemerkt werden, dafi je nach Aufgabe sowohl 
der Datenf lufigraph, als auch der Kontrollf lufigraph 
entsprechend dem beschriebenen Verfahren behandelt werden 
kann. 

Virtual Machine Modell 

Die Grundlagen der Datenverarbei tung mit VPU-Bausteinen sind 
entsprechend der vorhergehenden Abschnitte hauptsachlich 
datenf lufiorientiert . Urn sequentielle Programme mit 
ordentlicher Leistung abzuarbeiten, ist es jedoch notwendig 
ein sequentielles Datenverarbeitungsmodell zur Verfugung zu 
haben. Dabei sind oftmals die Sequenzer in den einzelnen PAEs 
nicht ausreichend. 

Die Architektur von VPUs ermoglicht jedoch grundsatzlich den 
Aufbau von beliebig komplexen Sequenzern aus einzelnen PAEs. 
Das bedeuted: 

1. Es konnen komplexe Sequenzer konfiguriert werden, die exakt 
den Anforderungen des Algorithmus entsprechen. 

2. Der Datenf luft kann durch entsprechende Konf iguration, exakt 
die Rechenschritte des" Algorithmus reprasentieren. 

Dadurch kann eine Virtuelle Maschine auf VPUs implementiert 
werden, die insbesondere auch den sequentiellen Anforderungen 
eines Algorithmus entspricht. 
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Haupcvorteil der VPU-Archi tektur ist, dafi ein Algorithmus 
durch einen Compiler so zerteilt werden kann, dafi die 
Datenf luBteile extrahiert werden dureh einen "optimal en" 
DatenfluB reprasentiert werden, indem ein angepafiter Datenflufi 
konfiguriert wird UND die sequentiellen Teile des Algorithmus 
durch einen "optimalen" Sequenzer reprasentiert werden, indem 
ein angepafiter Sequenzer konfiguriert wird- Dabei konnen 
gleichzeitig mehrere Sequenzer und Datenflusse auf einer VPU 
untergebracht werden, ausschliefilich abhangig von den zur 
Verfugung stehenden Ressourcen. 

Durch die groBe Anzahl an PAEs entstehen im Betrieb innerhalb 
einer VPU sehr viele lokalen Zustande. Bei Taskwechseln oder 
Unterprogramm-Auf ruf en (Interrupts) mussen diese Zustande 
gesichert werden (vgl. PUSH/POP bei Standardprozessoren) . Dies 
ist jedoch aufgrund der Menge an Zustanden nicht sinnvoll 
moglich. 

Urn die Zustande auf eine handhabbare Menge zu reduzieren mufi 
zwischen zwei Arten von Zustanden unterschieden werden: 
1. Zustandsinformationen des Maschinenmodells (MACHINE-STATE) . 
Diese Zustandsinformationen sind nur innerhalb der 
Abarbeitung eines bestimmten Modules gultig und werden auch 
nur lokal in den Sequenzern und Datenf lufteinheiten dieses 
bestimmten Modules verwendet . D.h. diese MACHINE-STATEs 
reprasentieren die Zustande, die in Prozessoren nach dem 
Stand der Technik verdeckt innerhalb der Hardware ablaufen, 
implizit in den Befehl'en und den Verarbeitungsschritten 
sind und nach Ablauf eines Befehles keine weitere 
Information fur nachfolgende Befehle beinhalten. Derartige 
Zustande brauchen nicht gesichert zu werden. Bedingung 
dafiir ist, dafi Interrupts nur nach kompletter Ausfuhrung 
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aller gerade aktiven Module durchgefuhrt werden. Stehen 
Interrupts zur Ausflihrung an, werden keine neuen Module 
geladen, sondern nur noch aktive abgearbeitet ; ebenfalls 
werden den aktiven Modulen, soweit-es der Algorithmus 
zulafit keine neuen Operanden mehr zugefuhrt. Dadurch wird 
ein Modul zu einer atomaren nicht unterbrechbaren Einheit, 
vergleichbar mit einer Instruktion eines Prozessors nach 
dem Stand der Technik. 
2. Zustande der Datenverarbeitung (DATA-STATE) . Die 
datenbezogenen Zustande miissen beim Auftreten eines 
Interrupts entsprechend den Prozessormodellen nach dem 
Stand der Technik gesichert und in den Speicher geschrieben 
werden. Das sind bestimmte notwendige Register und Flags 
oder - entsprechend der Begriffe der VPU-Technologie - 
Trigger. 

Bei den DATA- S TATEs kann die Handhabung je nach Algorithmus 
weiter vereinfacht werden. Zwei grundlegende Straregien werden 
im Folgenden nahers erlautert: 
1. Mitlaufen der Zustandsinf ormation 

Dabei werden alle relevanten und zu einem spateren Zeitpunkt 
benotigten Zustandsinf ormationen von einem Modul zum nachsten 
ubertragen, wie es in Pipelines oftmals standardmafiig 
implementiert ist. Die Zustandsinf ormationen werden dann 
zusammen mit den Daten implizit in einem Speicher abgelegt, 
sodafl die Zustande bei einem Abruf der Daten zugleich zur 
Verfugung stehen. Ein explizites Handhaben der 
Zustandsinf ormationen i.b. mittels PUSH und POP entfallt 
dadurch, was je nach Algorithmus einerseits zu einer 
wesentlichen Beschleunigung der Abarbeitung und andererseits 
zu einer vereinf achten Programmierung fiihrt. 
Die Zustandsinf ormaton kann wahlweise entweder mit dem 
jeweiligen Datenpaket gespeichert werden, oder nur im Falle 
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eines Interrupts gesichert und besonders gekennzeichnet 
werden. 

2. Sichern der Reentry Adresse 

Bei der Verarbeitung von grofien Datenmengen, die in einem 
Speicher abgelegt sind, ist kann es sinnvoil sein die Adresse 
mindestens einer der Operanden des gerade verarbeiteten 
Datenpaketes mit dem Datenpaket zusammen durch die PAEs zu 
leiten. Dabei wird die Adresse nicht modifiziert sondern steht 
beim Schreiben des Datenpaketes in ein RAM als Pointer auf den 
letzten verarbeiteten Operanden zur Verfiigung. 
Dieser Pointer kann wahlweise entweder mit dem jeweiligen 
Datenpaket gespeichert werden, oder nur ira Falle eines 
Interrupts gesichert und besonders gekennzeichnet werden. 
Insbesondere, wenn samtliche Pointer auf die Operanden durch 
eine Adresse (oder eine Gruppe von Adressen) berechnet werden 
konnen ist es sinnvoil nur eine Adresse (oder eine Gruppe von 
Adressen) zu sichern. 

"ULI W" - "UC ISC" -Model 1 

FUr das Verstandnis dieses (einem Prozessor nach dem Stand der 
Technik sehr ahlichen) Modells ist eine Erweiterung der 
Betrachtungsweise der Architektur von VPUs erf orderlich . Dabei 
dient das Virtual-Machine Model 1 als Grundlage. 
Das Array aus PAEs (PA) wird als in ihrer Architektur 
konf igurierbare Recheneinhei t betrachter. Der/die CT(s) 
stellen eine Ladeeinheit (LOAD-UNIT) fur Opcodes dar. Die 
IOAG(s) ubernehmen das Businterface und/oder den Registersatz . 

Diese Anordnung ermoglicht zwei grundsatzliche 
Funktionsweisen, die ira Betrieb gemischt verwendbar sind: 
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1. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur 
Ausfuhrung eines komplexen Befehls oder Befehlsfolge 
konfiguriert und danach werden die auf diesen Befehl bezogenen 
Daten (das kann auch ein einziges Datrenwort sein) verarbeitet. 
Danach wird diese Gruppe umkonf iguriert , zur Abarbeitung des 
nachsten Befehies. Dabei kann sich die Grbfie und Anordnung der 
Gruppe andern. Gemaft den bereits besprochenen 
Partitionierungstechnoiogien obliegt es dem Compiler, 
mbglichst optimale Gruppen zu schaffen. Durch den CT werden 
Gruppen ais Befehle auf den Baustein "geladen" , dadurch ist 
des Verfahren mit dem bekannten VLIW vergleichbar, nur daft 
erheblich mehr Rechenwerke verwaitet werden UND die 
Vernetzungsstruktur zwischen den Rechenwerken ebenfalls vom 
Instruktionswort abgedeckt werden kann (Ultra Large 
Instruction Word = "ULIW"). Dadurch laflt sich ein sehr hoher 
Instruktion Level Parallelism (ILP) erreichen. (siehe auch Fig 
27). Ein Instruktionswort entspricht dabei einem Modul. 
Mehrere Module konnen gleichzeitig verarbeitet werden, sofern 
es die Abhangigkeit der Daten zulaBt und geniigend Ressourcen 
auf dem Baustein frei sind. Wie bei VLIW-Bef ehlen wird fUr 
gewohnlich nach Ausfiihren des Instruktionswortes sofort das 
nachste Instruktionswort geladen. Zur zeitlichen Optimierung 
ist es dabei mdglich das nachste Instruktionswort bereits 
wahrend der Ausfuhrung vorzuladen (vgl. Fig. 10). Bei mehreren 
moglichen nachsten Instruktionsworten konnen mehrere 
vorgeladen werden und vor der Ausfuhrung wird z.B. durch ein 
Triggersignal das korrekte Instruktionswort ausgewahlt. (siehe 
Figur 4a B1/B2, Figur 15 ID C/ID K, Figur 36 A/B/C) 

2. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur 
Ausfuhrung einer haufig gebrauchten Befehlsfolge konfiguriert. 
Die Daten, das kann auch hier ein einzelnes Datenwort sein, 
werden bei Bedarf der Gruppe zugefiihrt und von der Gruppe 
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empfangen. Diese Gruppe bleibt uber eine Vielzahl von Takten 
ohne Umkonf iguration bestehen. Vergleichbar ist diese 
Anordnung mit einem speziellen Rechenwerk in einem Prozessor 
nach dem Stand der Technik (z.B. MMX das fur Spezialauf gaben 
vorgesehen ist und nur bei Bedarf verwendet wird. Durch diesen 
Ansatz sind Spezialbef ehle entsprechend des CISC-Prinzipes 
generierbar, mit dem Vorteil, daft diese Befehle 
anwendungsspezif isch geschaffen werden konnen (Ultra-CISC = 
"UCISC") . 

Erweiterung des RDY/ACK-Protokolls (vgl. PACT 02 ) 
In PACT 02 ist ein RDY/ACK-Standardprotokoll beschrieben, das 
die wesentlichen Anf orderungen gemaft den Synchronisationen von 
DE 44 16 881 in Hinblick auf eine typische 

Datenf luBapplikation beschreibt . Nachteil des Protokolles ist, 
daft lediglich Daten gesendet und der Empfang bestatigt werden 
kann. Der umgekehrte Fall, indem Daten angefordert werden und 
das Versenden bestatigt wird (ira Folgenden REQ/ACK genannt, 
ist zwar elektrisch mit demselben Zweidrahtprotokoll losbar, 
jedoch semantisch nicht erfafit. Das gilt insbesondere, wenn 
REQ/ACK und RDY/ACK gemischt betrieben werden. 

Daher wird die klare Unterscheidung der Protokolle eingefuhrt: 
RDY: Daten liegen beim Versender fur den Empfanger bereit 
REQ: Daten werden vom Empfanger beim Versender angefordert 
ACK: Allgemeine Bestatigung fur erfolgten Emfang oder Versand 

(Prinzipiell konnten auch zwischen ACK fiir ein RDY und einem 
ACK fiir ein REQ unterschieden werden, jedoch ist in den 
Protokollen die Semantik des ACKs fur gewbhnlich implizit) . 

Spei che rmodel 1 
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In VPUs kdnnen Speicher integriert werden (einer oder 
mehrerej , die ahnlich einer PAE angesprochen werden. Es wird 
im folgenden ein Speichermodell beschrieben, das gieichzeitig 
ein Interface zu externer Peripherie -und/oder externem 
Speicher darstellt: 

Ein VPU-interner Speicher mit PAE-ahnlichen Busf unktionen kann 
verschiedene Speichermodi darstellen: 

1. Standardspeicher (Random Access) 

2. Cache (als Erweiterung des Standardspeichers ) 

3. Lookup-Tabelie 

4. FIFO 

5. LIFO (Stack) 

Dem Speicher ist ein steuerbares Interface zugeordnet, das 
Speicherbereiche wahlweise wort- oder blockweise schreibt oder 
liest . 

Dadurch ergeben sich folgende Nutzungsmoglichkeiten: 

1. Entkopplung von Datenstromen (FIFO) 

2. Schneller Zugriff auf selektierte Speicherbereiche eines 
externen Speichers, was eine Cacheahnliche Funktion 
darstellt (Standardspeicher , Lookup-Tabelle ) 

3. Stack mit variierbarer Tiefe (LIFO) 

Dabei kann das Interface benutzt werden, es ist jedoch nicht 
zwingend notwendig, wenn die Daten z.B. ausschliefilich lokal 
in der VPU verwendet werden und der Speicherplatz eines 
internen Speichers ausreicht. 

Stack Modell 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im LIFO-Modus kann ein einfacher Stack-Prozessor 
aufgebaut werden. Dabei werden temporare Daten von den PAEs 
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auf den Stack geschrieben und bei Bedarf von dem Stack 
geladen. Die hierfiir notwendigen Compilertechnologien sind 
hinreichend bekannt. Durch die variierbare Stacktiefe, die 
durch einen Datenaustausch des internen Speicher ntit einem 
externen Speicher erreicht wird, kann der Stack beliebig grofl 
werden. 

Akkumulator Model 1 

Jede PAE kann eine Recheneinhei t nach dem Akkumulatorprinzip 
darstellen. Wie aus PACT 02 bekannt ist es moglich die 
Ausgangsregister auf den Eingang der PAE ruckzukoppeln. 
Dadurch entsteht ein Akkumulator nach dem Stand der T6chnik. 
In Verbindung mit dem Sequenzer nach Fig, 11 lassen sich 
einfache Akkumulator-Prozessoren aufbauen. 

Register Modell 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im Standardspeicher-Modus kann ein einfacher 
Register-Prozessor aufgebaut werden. Dabei werden die 
Registeradressen von einer Gruppe von PAEs generiert, wahrend 
eine andere Gruppe von PAEs die Verarbeitung der Daten 
ubernimmt . 

Architektur des Speicher s 

Der Speicher besitzt zwei Interface. Ein erstes, das den 
Speicher mit dem Array verbindet und ein zweites, das den 
Speicher mit einer IO-Einheit verbindet. Zur Verbesserung der 
Zugriffszeit sollte der Speicher als Dual-Ported-RAM 
ausgestaltet sein, wodurch Schreib- und Lesezugrif f en 
unabhangig voneinander erfolgen konnen. 
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Das erste Interface ist ubliches PA£-Interf ace (PAEI), das den 
Zugang zum Bussystem des" Arrays gewMhrleistet, sowie die" 
Synchronisation und Triggerverarbeitung sicherstelit . Trigger 
kbnnen verwendet werden und verschiedene Zustande des 
Speichers anzuzeigen oder Aktionen im Speicher zu erzwingen, 
beispielsweise 

1. Empty/Full: Beim Einsatz ais FIFO wird der FIFO-Zustand 
"voll", "fast-voll", "leer", "fast-leer" angezeit; 

2. Stack overrun/underrun: Beim Einsatz als Stack werden 
Uberlauf und Unterlauf des Stacks signalisiert ; 

3. Cache hit/miss: Im Cache-Mode wird angezeigt, ob eine 
Adresse im Cache gefunden wurde; 

4. -Cache flush: Durch einen Trigger wird das Schreiben des 
Caches in den externen RAM erzwungen. 

Dem PAE-Interface zugeordnet ist eine konf igurierbare 
Zustandsmaschine, die die verschiedenen Betriebsarten steuert. 
Der Zustandsmaschine ist ein Zahler zugeordnet urn die Adressen 
im FIFO- und LIFO-Modus zu generieren. Die Adressen werden 
uber einen Multiplexer an den Speicher gefiihrt, damit 
zusatzlich Adressen, die im Array generiert werden an den 
Speicher gefUhrt werden kbnnen. 

Das zweite Interface dient zum Anschluft einer IO-Einheit 
(IOI) . Die IO-Einheit ist als konf igurierbarer Kontroller mit 
einem externen Interface ausgestaltet . Der Kontroller liest 
oder schreibt wort- oder blockweise Daten in bzw. aus dem 
Speicher. Die Daten werden mit der IO-Einheit ausgetauscht . 
Weiterhin unterstutzt der Kontroller mittels eines 
zusatzlichen TAG-Speichers diverse Cache- Funktionen . 

IOI und PAEI sind miteinander synchronisiert, sodaft keine 
Kollision der beiden Interface eintritt. Die Synchronistation 
ist je nach Betriebsart unterschiedlich, wahrend 
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beispielsweise im Standardspeicher- oder Stack-Mode immer nur 
entweder das 101 oder das PAEI auf den gesamten Speicher 
zugreifen kann, ist im FIFO-Modus die Synchronisation 
zeilenweise, d.h. wahrend 101 auf eine Zeile x zugreift, kann 
das PAEI auf jede andere Zeile ungleich x gleichzeitig 
zugreifen. 

Die IO-Einheit wird entsprechend der peripheren Erf ordernisse 
ausgestaltet, beispielsweise : 

1. SDRAM Kontroller 

2. RDRAM Kontroller 

3. DSP-Bus Kontroller 

4. PCI Kontroller 

5. Serieller Kontroller (z.B. NGIO) 

6. Spezial Purpose Kontroller (SCSI, Ethernet, USB, etc.) 

Eine VPU kann beliebige Speicherelemente mit beliebigen IO- 
Einheiten besitzen. Dabei konnen unterschiedliche IO-Einheiten 
auf einer VPU implement iert sein. 

Funktionsweise : 

1 . Standardspeicher 

1.1 intern/lokal 

Ober das PAEI werden Daten und Adressen mit dem Speicher 
ausgetauscht . Die adressierbare SpeichergroBe ist durch die 
Speichergrofie beschrankt. 

1.2 extern/memory mapped window 

Uber das PAEI werden Daten und Adressen mit dem Speicher 
ausgetauscht. Im Kontroller des IOI ist eine Basisadresse im 
externen Speicher angegeben. Der Kontroller liest blockweise 
Daten von der externen Speicheradresse und schreibt sie in den 
Speicher, wobei die internen und externen Adressen jeweils 
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inkrementiert (oder dekrementiert ) werden; so lange, bis der 
gesamte interne Speicher ubertragen wurde oder eine 
voreingesteilte Grenze erreicht wurde. Das Array arbeitet mit 
den lokalen Daten, bis diese vom Kontxoller wieder in den 
externen Speicher geschrieben werden. Das Schreiben veriauft 
analog dem beschriebenen Lesevorgang. 
Das Lesen und Schreiben durch den Kontroller kann 

a) durch Trigger angestoBen werden oder 

b) durch einen Zugriff des Arrays auf eine nicht lokal 
gespeicherte Adresse. Greift das Array auf eine derartige 
Adresse zu, wird zunachst der interne Speicher in den externen 
geschrieben und danach der Speicherblock um die gewtinschte 
Adresse nachgeladen. 

Diese Betriebsart ist besonders fur die Implement ierung eines 
Registersatzes flir einen Registerprozessor interessant. Durch 
einen Trigger kann in diesem Fall das Push/Pop des 
Registersatzes mit dem externen Speicher fur einen Taskwechsel 
oder eine Kontextumschaltung realisiert werden. 

1.3 extern/lookup table 

Die Lookup Tabellen Funktion ist eine Vereinf achung von 1.2. 
Dabei werden die Daten entweder einmal oder mehrmals durch 
einen CT-Aufruf oder einen Trigger vom externen RAM in den 
internen gelesen. Das Array liest Daten aus dem internen 
Speicher, schreibt jedoch keine Daten in den internen 
Speicher. Die Basisadresse im externen Speicher ist im 
Kontroller entweder durch die CT oder das Array gespeichert 
und kann zur Laufzeit verandert werden. Das Laden aus dem 
externen Speicher wird entweder von der CT oder durch einen 
Trigger aus dem Array ausgelost und kann ebenfalls zur 
Laufzeit geschehen. 

1.4 extern/cached 
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In diesem Modus greift das Array wahlweise auf den Speicher 
zu. Der Speicher arbeitet wie ein Cache-Speicher fur den 
externen Speicher nach dem Stand der Technik. Durch einen 
Trigger aus dem Array Oder durch die -CT kann des leeren des 
Caches (d.h. das vollstandige Schreiben des Caches in den 
externen Speicher) hervorgeruf en werden. 

2. FIFO 

Der FIFO-Modus wird Ublicherweise verwendet, wenn Datenstr6me 
von extern an die VPU gefuhrt werden. Dann dient der FIFO als 
Entkopplung zwischen der externen Datenverarbeitung und der 
VPU-internen Datenverarbeitung, derart da£ entweder von extern 
auf den FIFO geschrieben wird und von der VPU gelesen oder 
genau umgekehrt. Die Zustande des FIFOs werden durch Trigger 
zum Array und ggf . auch nach extern signalisiert . Der FIFO 
selbst wird nach dem Stand der Technik mit unterschiedlichen 
Schreib- und Lesezeigern implementiert . 

3. Stack/intern 

Durch ein Adressregister wird ein interner Stack aufgebaut. 
Bei jedem Schreibzugrif f auf den Speicher durch das Array wird 
das Register je nach Mode (a) inkrementiert (b) dekrementiert • 
Bei Lesezugrif fen vom Array aus wird des Register umgekehrt 
(a) dekrementiert und (b) inkrementiert. Das Register stellt 
fUr jeden Zugriff die erforderllche Adresse zur Verfligung. Der 
Stack ist durch die Grofie des Speichers begrenzt. Fehler 
(Oberlauf /Unterlauf ) werden durch Trigger angezeigt. 

4. Stack/extern 

Sofern der interne Speicher zu klein fUr den Aufbau eines 
Stacks ist, kann er in den externen Speicher ausgeiagert 
werden- Dazu besteht im Kontroller ein Adresszahler fur die 
externe Stackadresse . Wird eine bestimmte Menge an Eintragen 

k 
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im internen Stack uberschritten, wird blockweise eine Anzahl 
von Eintragen" auf den externen Stack geschrieben. Der Stack 
wird vom Ende her, also vom altesten Eintrag aus nach extern 
geschrieben, wobei eine Menge von neuesten Eintragen nicht 
nach extern geschrieben wird, sondern intern verbieibt. Der 
externe Adresszahler (ERC) wird zeilenweise modifiziert. 

Nachdem Platz im internen Stack geschaffen wurde muB der 
verbieibende Stack-Inhalt an den Beginn des Stacks bewegt 
werden, die interne Stackadresse wird entsprechend angepaiit. 

Eine effizientere Variante ist des Auslegen des Stacks als 
Ringspeicher (vgl. PACT 04 ) . Ein interner Adresszahler wird 
durch das HinzufUgen Oder Entfernen von Stackeintragen 
modifiziert. Sobald der interne Adresszahler (IAC) am oberen 
Ende des Speichers iiberschreitet, zeigt er auf die unterste 
Adresse. Unterschreitet der IAC die unterste Adresse, zeigt er 
auf die oberste. Ein zusatzlicher Zahler (FC) zeigt den 
Fttllstand des Speichers an, d.h. mit jedem geschriebenen Wort 
wird der Zahler inkrementiert , mit jedem gelesenen 
dekrementiert . Anhand des FC ist erkennbar, wann der Speicher 
leer, bzw. voll ist. Diese Technologie ist von FIFOs bekannt. 
Wird damit ein Block in den externen Speicher geschrieben, 
reicht die Anpassung des FC urn den Stack zu aktualisieren. Ein 
externer Adresszahler (EAC) zeigt immer auf den altesten im 
internen Speicher bef indlichen Eintrag und bef indet sich damit 
an dem IAC entgegengesetzten Ende des Stacks. Der EAC wird 
modifiziert, wenn 

(a) Daten auf den externen Stack geschrieben werden, dann 
lauft er in Richtung des IAC, 

(b) Daten vom externen Stack gelesen werden, dann entfernt er 
sich vom IAC. 
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Durch Oberwachung cies FC wird sichergestellt, dafi IAC und EAC 
nicht kollidieren. 

Der ERC wird entsprechend der externen Stackoperation {Auf- 
oder Abbau) modif iziert . 

MMU 

Dem externen Speicherinterf ace kann eine MMU zugeordnet 
werden, die zwei Funktionen erfullt: 

1. Umrechnung der internen Adressen auf externe Adressen zur 
Unterstutzung moderner Betriebsysteme 

2. Uberwachung der Zugriffe auf externe Adressen, z.B. 
generieren eines Fehiersignales als Trigger, wenn der externe 
Stack Uber- oder unterlauft. 

Compiler 

Das erf indungsgemafie Programmierprinzip der VPU-Technologie 
besteht darin, sequentiellen Kode zu separieren und in 
moglichst vieie kleine und unabhangige Teilalgorithmen zu 
zerlegen, wahrend die Teilalgorithmen des Datenf luficodes 
direkt auf die VPU abgebildet wird. 

Trennung zwischen VPU- und Standart-Kode 
Innerhalb einer Sprache nach den Stand der Technik, 
reprasentativ fUr alle mdglichen Compiler (Pascal, Java, 
Fortran, etc) soli C++ im weiteren verwendet werden, kann eine 
spezielle Erweiterung (VC = Vpu C) definiert werden, die die 
Sprachkonstrukte und Typen enthalt, die besonders gut auf eine 
VPU-Technologie abbildbar sind. VCs dUrfen vom Programmierer 
nur innerhalb von Proceduren oder Functionen verwendet werden, 
die keine anderen Konstrukte oder Typen verwenden. Diese 
Proceduren und Functionen sind direkt auf die VPU abbildbar 
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und laufen besonders effizient ab. Der Compiler extrahiert die 
VC im Praprozessor und gibt sie direkt an das VC-Backend- 
Processing (VCBP) weiter. 

Extraktion des parallelisierbaren Compiler-Kodes 
Im nachsten Schritt analysiert der Compiler die restlichen C++ 
Codes und extrahiert die Teile (MC = mappable C) , die gut 
parallelisierbar und ohne den Einsatz von Sequenzern auf die 
VPU-Technologie abbildbar sind. Jedes einzelne MC wird in ein 
virtuelles Array plaziert und geroutet. Danach wird der 
Platzbedarf, sowie die zu erwartende Performance analysiert. 
Dazu wird das VCBP aufgerufen und die einzelnen MC werden 
zusammen mit den VC, die in jedem Fall abgebildet werden, 
partitioniert . 

Die MCs, deren VPU-Implementierung den hochsten Leistungs- 
Zuwachs erzielen werden Ubernommen, die restlichen werden als 
C++ an die nachste Compilerstuf e weitergereicht . 

Optimierender Sequenzer Generator 

Diese Compilerstufe ist je nach Architektur des VPU-Systems 
unterschiedlich implementierbar : 

1. VPU ohne Sequenzer und externer Prozessor 
Samtliche verbleibenden C++ Kodes werden fttr den externen 
Prozessor compiliert. 

2. Nur VPU mit Sequenzer 

2.1 Sequenzer in den PAEs 

Samtliche verbleibenden C++ Kodes werden fur die Sequenzer der 
PAEs compiliert. 

2.2 Konf igurierbare Sequenzer im Array 

Der verbleibende C++ Code wird fiir jedes unabhangige Modul 
analysiert. Die jeweils am besten geeignete Sequenzer-Variante 
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wird aus einer Datenbank ausgewahlt und als VC-Code (SVC) 
abgelegt. Dieser Schritt ist meist iterativ, d.h. eine 
Sequenzer-Variante wird ausgewahlt, der Code wird compiliert, 
analysiert und mit dem compiiierten eode anderer Sequenzer- 
Varianten verglichen. Letztlich wird der Objectcode (SVCO) des 
C++ Codes fur den gewahlten SVC generiert. 
2.3 sowohl 2.1 als auch 2.2 werden verwendet 

Die Funktionsweise entspricht der von 2.2. Fur die Sequenzer 
in den PAEs bestehen besondere statische Seguenzer-Modelle in 
der Datenbank. 

3. VPU mit Sequenzer und externer Prozessor 

Auch diese Funktionsweise entspricht 2.2. Fur den externen 
Prozessor existieren besondere statische Sequenzer-Modelle in 
der Datenbank. 

Linker 

Der Linker verbindet die einzelnen Module (VC, MC, SVC und 
SVCO) zu einem ausfuhrbaren Programra. Dazu verwendet er das 
VCBP um die einzelnen Module zu plazieren, zu routen und die 
zeitliche Partitionierung festzulegen. Der Linker fiigt 
ebenfalls die Kommunikationsstrukturen zwischen den einzelnen 
Modulen hinzu und fiigt gegebenenf alls Register und Speicher 
ein. Aufgrund einer Analyse der Kontrollstrukturen und 
Abhangigkeiten der einzelnen Module werden Strukturen zum 
Speichern der internen Zustande des Arrays und der Sequenzer 
fiir den Fall einer Reconfiguration hinzugefilgt. 

Bemerkungen zu den Prozessormodellen 

Die verwendeten Maschinenmodell kdnnen innerhalb einer VPU 
beliebig kombiniert werden. Auch innerhalb eines Algorithmus 
kann je nach dem, welches Modell optimal ist, zwischen den 
Modellen gewechselt werden. 
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Wird-einem Register-Prozessor ei-n weiterer Speicher. zugefiigt,. 
von dem die Operanden gelesen werden und in den die Ergebniss* 
geschrieben werden, kann eine Load/Store-Prozessor aufgebaut 
werden. Dabei konnen mehrere verschiedene Speicher zugeordnet 
werden, indem die einzeinen Operanden und das Ergebnis 
getrennt behandelt wird. 

Diese Speicher arbeiten dann quasi ais Load/Store-Einheit und 
stellen eine Art Cache fur den externen Speicher dar. Die 
Adressen werden durch von der Datenverarbeitung separierte 
PAEs berechnet. 



Pointer Reordering 

Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr 
schlecht durch Pipelines gehandhabt werden konnen. Wenn ein 
Pointer erst direkt vor dem Verwenden der Datenstrukturen auf 
die er zeigt, berechnet wird, kann haufig die Pipeline nicht 
schnell genug gefiillt werden und die Verarbeitung wird 
speziell in VPUs ineffizient. 

Sicherlich ist es sinnvoll bei der Programmierung von VPUs 
mdglichst keine Pointer zu verwenden, jedoch ist das oftmals 
nicht mbglich. 

Die Losung ist, die Pointerstrukturen durch den Compiler so 
umzusortieren, daA die Pointeradressen moglichst lange vor 
deren Verwendung berechnet werden. Gleichzeitig sollte es 
mfcglichst wenig direkte Abhangigkeiten zwischen einem Pointer 
und den Daten auf die er zeigt geben. 

Erwexterun^n der PAEs < aeae nuber P 136 51 075.9 und P196 54 
846.2) 
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Durch P196 51 075.9 und P196 54 846.2 ist der Stand der 
Technik in Bezug auf die Konf igurationseigenschaf ten von 
Zellen (PAEs) definiert. 

Dabei soil auf zwei Eigenschaf ten ei-ngegangen werden: 

1. Einer PAE (0903) ist gemafi P196 51 075.9 ein Satz von 
Konf igurationsregistern (0904) zugeordnet, der eine 

Konf iguration beinhaltet (Fig. 9a) . 

2. Eine Gruppe von PAEs (0902) kann gemafl PI 96 54 84 6.2 auf 
einen Speicher zum Speichern oder Lesen von Daten zugreifen 
(Fig. 9b) 

Aufgabe ist es, 

a) ein Verfahren zu schaffen, das das Umkonf igurieren von PAEs 
beschleunigt und zeitlich von der ubergeordneten Ladeeinheit 
entkoppelt, und 

b) das Verfahren so auszulegen, dafi gleichzeitig die 
Moglichkeit geschaffen wird uber mehrere Konf igurationen zu 
sequenzen, und 

c) gleichzeitig mehrere Konf igurationen in einer PAE zu 
halten, von denen immer eine aktiviert ist und zwischen 
verschiedenen Konf igurationen schnell gewechselt werden kann. 

Entkopplung der Konf iguration s register 

Das Konf igurationsregister wird von der ubergeordneten 
Ladeeinheit (CT) entkoppelt (Fig. 10), indem ein Satz von 
mehreren Konf igurationsregistern (1001) verwendet wird. Immer 
genau eines der Konf igurationsregister bestimmt selektiv die 
Funktion der PAE. Die Auswahl des aktiven Registers wird uber 
einen Multiplexer (1002) "durchgef uhrt . In jedes der 
Konf igurationsregister kann die CT beliebig schreiben, sofern 
dieses nicht die aktuelle Konf iguration der PAE bestimmt/ d.h. 
aktiv ist. Das Schreiben auf das aktive Register ist 
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prinzipiell moglich, dazu stehen die in PACT10 beschriebenen 
Verfahren zur Verfugung. 

Welches Konf iguraticnsregister von 1002 selektiert wird kann 
durch verschiedene Quellen bestimmt werden: 

1. Ein beliebiges Status-Signal oder eine Gruppe beliebiger 
Status-Signale, die iiber ein Bussystem (0802) an 1002 geftihrt 
werden (Fig. 10a) . Die Status-Signale werden dabei von 
beliebigen PAEs generiert oder durch externe Anschlusse des 
Bausteins zur Verfugung gestellt (vgl. Fig. 8). 

2. Das Status-Signal der PAE, die von 1001/1002 konfiguriert 
wird, dient zur Selektion (Fig. 10b) . 

3. Ein von der ubergeordneten CT generiertes Signal dient zur 
Selektion (Fig. 10c) . 

Dabei ist es moglich wahlweise die eingehenden Signale (1003) 
mittels eines Registers fur einen bestimmten Zeitraum zu 
speichern und alternativ und wahlweise abzurufen. 

Durch den Einsatz mehrere Register wird die CT zeitlich 
entkoppelt. Das bedeutet, die CT kann mehrere Konf igurationen 
"vorladen", ohne dafi eine direkte zeitliche Abhangigkeit 
besteht . 

Lediglich wenn das selektierte/aktivierte Register in 1001 
noch nicht geladen ist, wird mit der Konf iguration der PAE so 
lange gewartet, bis die CT das Register geladen hat. Um 
f estzustellen, ob ein Register eine giiltige Information 
besitzt kann beispielsweise ein "Valid-Bit" (1004) pro 
Register eingefiihrt werden, das von der CT gesetzt wird. Ist 
0906 bei einem selektierten Register nicht gesetzt, wird iiber 
ein Signal die CT zum schnellstmoglichen Konf igurieren des 
Registers auf gef ordert . 

Das in Fig. 10 beschriebene Verfahren ist einfach zu einem 
Sequenzer erweiterbar (Fig. 11) . Dazu wird ein Sequenzer mit 
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Instruktionsdekoder (1101) zur Ansteuerung der 
Selektionssignale des Multiplexers (1002) verwendet. Der 
Sequenzer bestimmt dabei abhangig von der aktuell selektierten 
Konfigurat ion (1102) und "einer zusat-zlichen Statusinf ormation 
(1103/1104) die nachste zu selektierende Konf iguration. Die 
die Statusinf ormation kann 

(a) der Status der Status-Signal der PAE, die von 1001/1002 
konfiguriert wird sein (Fig. 11a) 

(b) ein beliebiges uber 0802 zugefiihrtes Statussignal sein 
(Fig. lib) 

(c) eine ^Combination aus (a) und (b) sein. 

1001 kann auch als Speicher ausgestaltet sein, wobei anstatt 

1002 ein Befehl von 1101 adressiert wird. Die Adressierung ist 
dabei abhangig vom Befehl selbst und von einent Statusregister . 
Insoweit entspricht der Aufbau einer "von Neumann" Maschine, 
mit dem Unterschied, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht 
zu verwenden (vgl. Fig. 10) 

(b) daft das Statussignal nicht von dem dem Sequenzer 
zugeordneten Rechenwerk (PAE) generiert werden rauB, sondern 
von einem beleibigen anderen Rechenwerk stammen kann (vgl. 
Fig. lib). 

Wichtig ist, dafc der Sequenzer Sprtinge, insbesondere auch 
bedingte Sprtinge, innerhalb von 1001 ausfuhren kann. 

Ein weiteres zusatzliches oder alternatives Verfahren (Fig. 
12) zum Aufbau von Sequenzern innerhalb von VPUs ist die 
Verwendung der internen Datenspeicher (1201, 0901) zum 
Speichern der Konf igurationsinf ormation fur eine PAE oder eine 
Gruppe von PAEs . Dabei wird der Datenausgang eines Speichers 
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auf einen Konf igurationseingang oder Dateneingang einer PAE 
Oder mehrer PAEs geschaltet (1202) . Die Adresse (1203) fur 
1201 kann dabei von derselben PAE/denselben PAEs oder einer 
Oder mehreren beliebigen anderen gerteriert werden. 

Bei diesem Verfahren ist der Sequenzer nicht fest 
implementiert, sondern wird durch eine PAE oder eine Gruppe 
von PAEs nachgebildet . Die internen Speicher konnen Programme 
aus den externen Speichern nachladen (vgl. erf indungsgemafies 
Speichersystem) . 

Zur Speicherung von lokalen Daten (z.B. fur iterative 
Berechnungen und als Register fur einen Sequenzer) wird die 
PAE mit einem zusatzlichen Registersatz versehen, dessen 
einzelne Register entweder durch die Konf iguration bestimmt, 
zur ALU gefiihrt oder von der ALU beschrieben werden; oder 
durch den Befehlssatz eines implementierten Sequenzers frei 
benutzt werden konnen (Register Mode) . Ebenfalls kann eines 
der Register als Akkumulator (Akkumulator Mode) verwendet 
werden. Wird die PAE als vollwertige Maschine verwendet, ist 
es sinnvoll eines der Register als Adresszahler fUr externe 
Datenadressen zu verwenden. 

Zur Verwaltung von Stacks und Akkumulatoren aufierhalb der PAE 
(z.B. in den er f indungsgemafien Speichern) wird das bereits 
beschriebene RDY/ACK REQ/ACK Synchronistionsmodell verwendet. 

PAEs nach dem Stand der Technik (vgl. PACT 02 ) sind zur 
Verarbeitung von bit-weisen Operationen schlecht geeignet, 
sofern die integrierte ALU bit-Operationen nicht besonders 
unterstutzt, bzw. schmal 2~, 4-bit breit) ausgelegt ist. 

Die Verarbeitung von einzelnen Bits oder Signalen kann 
effizient gewahrleistet , indem der ALU-Kern durch einen FPGA- 
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Kern (LC) ersetzt wird, der konf igurierbar logische 
Operacionen durchfiihrt. Der LC ist dabei in seiner Funktion 
und internen Vernetzung frei konf igurierbar . Es konnen LC nach 
dem Stand der Technik eingesetzt werden. Fur bestimmte 
Operationen ist es sinnvoll dem LC intern einen Speicher 
zuzuordnen. Die Interf ace-Baugruppen zwischen FC und dem 
Bussystem des Arrays werden nur geringfiigig an den FC 
angepafit, bleiben aber grundlegend bestehen. Zur flexibleren 
Gestaltung des Zeitverhaltens des FC ist es jedoch sinnvoll/ 
die Register in den Interf ace-Baugruppen abschaltbar zu 
gestalten. 
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Figuren 

In Fig. 4a sind einige grundlegenden Eigenschaf ten des 
erfindungsgemailen Verfahrens dargestellt: 

Die Module des Types A sind zu einer Gruppe zusammengef afit und 
besitzen am Ende einen bedingten Sprung, entweder nach Bl oder 
B2. An dieser Position (0401) ist ein Umkonf igurationspunkt 
eingefiigt, da es sinnvoll ist die Zweige des bedingten 
Sprunges als jeweils eine Gruppe zu betrachten (Fall 1) . 
Wurden dagegen beide Zweige von B (Bl und B2) zusatzlich 
zusammen mit A auf den Zielbaustein passen (Fall 2), ware es 
sinnvoll nur einen Umkonf igurationspunkt bei 0402 einzufiigen, 
da dadurch die Zahl der Konf igurationen verringert wird und 
sich die Verarbeitungsgeschwindigkei t erhoht. Beide Zweige (Bl 
und B2) springen bei 0402 nach C. 

Die Konf iguration der Zellen auf dem Zielbaustein ist in Fig, 
4b schematisch dargestellt. Dabei werden die Funktionen der 
einzelnen Graphenknoten auf die Zellen des Zielbausteins 
abgebildet. Jeweils eine Zeile stellt eine Konf iguration dar. 
Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine 
Umkonf iguration an. S n ist eine datenspeichernde Zelle, von 
beliebiger Ausgestaltung (Register, Speicher, etc.}. Dabei ist 
S r ,I ein Speicher, der Daten entgegennimmt und S n O ein Speicher 
der Daten ausgibt. Der Speicher S n ist fiir gleiche n jeweils 
derselbe, I und O kennzeichnen die Datentransf errichtung. 

Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind 
dargestellt. 

Das Modell in Fig. 4 entspricht einem Datenf lufimodell , jedoch 
mit der wesentlichen Erweiterung des Umkonf iguraticnspunkts 
und der damit erreichbaren Parti tionierung des Graphen, wobei 
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die zwischen den Partitionen ubertragenen Daten 
zwischengespeichert werden. 

Im Modell von Fig. 5a wird aus einer- beliebigen Graphenmenge 
und -Konstellation (0501) selektiv ein Graph B n aus einer Menge 
von Graphen B aufgerufen. Nach der Ausfiihrung von B gelangen 
die Daten nach 0501 zuriick. 

Wird in 0501 ein ausreichend grofier Sequencer (A) 
implementiert, ist mit dem Modell ein den typischen 
Prozessoren sehr ahnliches Prinzip implementierbar . Dabei 
gelangen 

1. Daten in den Sequenzer A, die dieser als Befehle dekodiert 
und entsprechend dem "von Neumann" -Prinzip darauf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden 
und an ein fest konf iguriertes Rechenwerk C zur Berechnung 
weitergeleitet werden. 

Der Graph B stellt selektierbar ein besonderes Rechenwerke 
und/oder besondere Opcodes fur bestimmte Funktionen zur 
Verfugung und wird alternativ zur Beschleunigung von C 
verwendet. Beispielsweise kann Bl ein optimierter Algorithmus 
zu Berechnung von Matrixmultiplikationen sein, wahrend B2 
einen FIR-Filter und B3 eine Mustererkennung darstellt. 
Entsprechend eines Opcodes der von 0501 dekodiert wird, wird 
der geeignete bzw. entsprechende Graph B aufgerufen. 

Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, 
wobei in 0502 der pipelineartige Rechenwerks-Character 
symbolisiert wird. 

Wahrend in den Umkonf igurationspunkten von Fig. 4 vorzugsweise 
grofcere Speicher zum Zwischenspeichern der Daten eingefugt 
werden, ist eine einfache Synchronisation der Daten in den 
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Umkonf igurationspunkten von Fig. 5 ausreichend, da der 
Datenstrom vorzugsweise als ganzer durch den Graphen B lauft 
und der Graph B nicht weiter partitioniert ist; dadurch ist 
das Zwischenspeichern der Daten iiberflussig. 

In Fig. 6a sind verschiedene Schieifen dargestellt. Schleifen 
konnen grundsatzlich auf drei Arten behandelt werden: 

1. Hardware-Ansatz : Schleifen werden vollstandig ausgfewalzt 
auf die Zielhardware abgebildet (0601a/b) . Wie bereits 
erlautert ist dies nur bei wenigen Schleif enarten moglich. 

2. Datenfluft-Ansatz: Innerhalb des Datenflufies werden 
Schleifen liber mehrere Zellen hinweg aufgebaut (0602a/b) . Das 
Ende der Schleif e wird auf den Schleif enanfang ruckgekoppelt . 

3. Sequenzer-Ansatz : Ein Sequenzer mit minimalem Befehlssatz 
fUhrt die Schleife aus (0603a/b) . Dabei sind die Zellen der 
Zielbausteine so ausgestaltet , dafi sie den entsprechenden 
Sequenzer beeinhal ten (vgl. Fig. lla/b) . 

Durch eine geeignete Zerlegung von Schleifen kann deren 
Ausfuhrung ggf. optimiert werden: 

1. Unter Verwendung von Optimierungsmethoden nach dem Stand der 
Technik laflt sich haufig der Schleif enrumpf, also der 
wiederholt auszuf uhrende Teil, dadurch optimieren, dafi 
bestimmte Operationen aus der Schleife entfernt werden und vor 
Oder hinter die Schleife gestellt werden (0604a/b) . Dadurch 
wird die Menge der zu sequencenden Befehle erheblich 
reduziert. Die entfernten Operationen werden nur einmal vor 
bzw. nach Ausfuhrung der Schleife durchlaufen. 

2. Eine weitere Optimierungsindglichkeit ist das Teilen von 
Schleifen in mehrere kleinere oder kurzere Schleifen. Dabei 
findet die Teilung derart statt, daii mehrere parallele oder 
mehrere sequentielle (0605a/b) Schleifen entstehen. 
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Fig. 7 verdeutlicht die Implementierung einer Rekursion. Dabei 
werden dieseiben Ressourcen (0701) in Form von Zellen fur jede 
Rekursionsebene (1-3) verwendet. Die Ergebnisse einer jeden 
Rekursionsebene (1-3) werden beim Aufbau (0711:) in einen nach 
dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. 
Gleichzeitig mit dem Abbau (0712:) der Ebenen wird der Stack 
abgebaut - 

In Fig. 14 wird das Virtual-Machine-Model 1 dargestellt. Aus 
einem externen Speicher werden Daten (1401) und zu den Daten 
gehorende Zustande (1402) in eine VPU (1403) gelesen. 
1401/1402 werden uber eine von der VPU generierte Adresse 1404 
selektiert. Innerhalb der VPU sind PAEs zu unterschiedlichen 
Gruppen zusammengef afit (1405, 1406, 1407). Jede Gruppe besitzt 
einen datenverarbeitenden Teil (1408), der lokale impilzite 
Zustande (1409) besitzt, die keinen EinfluB auf die 
umliegenden Gruppen besitzt. Daher werden dessen Zustande 
nicht aufierhalb der Gruppe weitergeleitet . Er kann jedoch von 
den externen Zustanden abhangig sein. Ein weiterer Teil (1410) 
generiert Zustande, die Einflufi auf die umliegenden Gruppen 
haben . 

Die Daten und Zustande der Ergebnisse werden in einen weiteren 
Speicher (1411, 1412) abgelegt. Gleichzeitig kann die Adresse 
von Operanden (14004) als Pointer gespeichert (1413) werden. 
Zur zeitliche Synchronisation kann 1404 uber Register (1414) 
gefuhrt werden. 

In Fig. 14 ist zur Verdeutlichung ein einfaches Modell 
dargestellt. Die Vernetzung und Gruppierung kann wesentlich 
komplexer sein als in diesem Modell. Ebenfalls kbnnen Zustande 
und Daten auch an weitere Module als den Nachf olgenden 
ubertragen werden. Es ist mbglich, da£ Daten an andere Module 
ubertragen werden als die Zustande. Sowohl Daten als auch 
Zustande eines bestimmten Moduls kbnnen von mehreren 
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unterschiedlichen Modulen empfangen werden. Innerhalb einer 
Gruppe kann 1408, 1409 und 1410 voranden sein. Abhangig vom 
Algorithmus konnen auch einzelne Teile fehlen (z.B. 1410 und 
1409 vorhanden, 1410 jedoch nicht) . " 

In Figur 15 ist dargestellt wie aus einem Verarbeitungsgraphen 
Teilapplikationen extrahiert werden. Dabei wird der Graph so 
zerlegt, dafi lange Graphen sinnvoll zerteilt werden und in 
Teilapplikationen (H,A, C,K) abgebildet werden. Nach Spriingen 
werden neue Teilgraphen gebildet (C,K) wobei fur jeden Sprung 
ein getrennter Teilgraph gebildet wird. 

Jeder Teilgraph ist in dem ULIW-Modell von der CT (vgl. 
PACT10) getrennt ladbar. Wesentlich ist, dafi Teilgraphen durch 
die Mechanismen in PACT10 verwaltet werden konnen. Dazu gehort 
insbesondere das intelligente Konf igurieren, Ausf uhren/Starten 
und Loschen der Teilapplikationen. 

1503 bewirkt das Laden Oder Konf igurieren von Teilapplikation 
A, wahrend Teilapplikation K ausgefiihrt wird. Dadurch ist 

a) Teilapplikation A zum Ausf iihrungsende von Teilapplikation K 
bereits komplett in die PAEs konf iguriert , sofern die PAEs 
mehrere Konf igurationsregisrer aufweisen; 

b) Teilapplikation A zum Ausf iihrungsende von Teilapplikation K 
bereits in die CT geladen, sofern die PAEs nur ein 

Konf igurationsregister aufweisen. 

1504 startet die Ausfiihrung von Teilapplikation K. 

D.h. zur Laufzeit werden die nachsten benotigten Programmteile 
wahrend der Abarbeitung der aktuellen Programmteile unabhangig 
geladen. Dadurch ergibt sich ein wesentlich ef f izienterer 
Umgang mit den Programmcode, als bei ublichen Cache- 
Mechanismen . 

Bei Teilapplikationen A wird eine weitere Besonderheit 
dargestellt. Prinzipiell ware es denkbar beide moglichen 
Zweige (C,K) des Vergleiches vorzukonf igurieren . Angenommen, 
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die Zahl der zur Verfugung stehenden freien 

Konf igurationsregister reicht dazu nicht aus, wird der 

wahrscheinlichere der Zweige konfiguriert (1506). Das spart 

zudem Konf igurationszeit . Bei Ausfiihrung des nicht 

konf igurierten Zweigs, wird (da die Konf iguration noch nicht 

in die Konf igurationsregister geiaden ist) die 

Programmausfuhrung unterbrochen, bis der Zweig konfiguriert . 

ist. 

Grundsatzlich ist es mogiich auch nicht konf igurierte 
Teilapplikationen auszufiihren (1505), diese mussen dann wie 
zuvor beschrieben vor der Ausfiihrung geiaden werden. 

Ein FETCH-Befehl kann von einem Trigger mittels einer eigenen 
ID angestofien werden. Damit konnen Teilapplikationen abhangig 
vom Zustand des Arrays vorgeladen werden. 

Das ULIW-Modell unterscheidet sich im Wesentlichen vom VLIW- 
Modell, indem es 

1. Das Routing der Daten mit beinhaltet 

2. Grofiere Instruktionsworter bildet. 

Ebenfalls kann das beschriebene Verfahren der Partitionierung 
von Compilern fur heutige Standardprozessoren nach dem 
RISC/CISC-Prinzip ebenso eingesetzt werden. Wird dann eine 
Einheit (CT) nach PACT10 zur Steuerung des Bef ehls-Caches 
verwendet, kann dieser erheblich optimiert und beschleunigt 
werden . 

Dazu werden "normale" Programme entsprechend in 
Teilapplikationen partitioniert . Gemafi. PACT10 werden Verweise 
auf mogliche nachfolgende Teilapplikationen eingefuhrt (1501, 
1502) . Dadurch kann eine CT die Teilapplikationen bereits in 
den Cache vorladen bevor sie benotigt werden. Bei Sprungen wird 
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nur die angesprungen Teilapplikation ausgefuhrt, die anderejn) 
werden spater durch neue Teilapplikationen iiberschrieben. 
Neben dem intelligenten Vorladen hat das Verfahren den 
weiteren Vorteii, dafi die Grofie der -Teilapplikationen beim 
Laden bereits bekannt ist. Dadurch konnen optimale Bursts beim 
Zugriff auf die Speicher von der CT ausgefuhrt werden, was den 
Speicherzugrif f wiederum erheblich beschleunigt . 

Figur 16 zeigt den Aufbau eines Stack-Prozessors . Durch das 
PAE -Array (1601) werden Protokolle generiert urn auf einen als 
LIFO konf igurierten Speicher (1602) zu schreiben oder zu 
lesen. Dabei wird ein RDY/ACK-Protokoll zum Schreiben und 
REQ/ACK-Protokoll zum Lesen verwendet. Die Vernetzung und 
Betriebsmodi werden von der CT (1603) konf iguriert . 1602 kann 
dabei seinen Inhalt auf den externen Speicher (1604) 
auslagern. 

Eine Reihe der PAEs sollen in diesem Beispiel als Register- 
Prozessor arbeiten (Figur 17) . Jede PAE besteht aus einem 
Rechenwerk (1701) und einem Akkumulator (1702) auf den das 
Ergebnis von 1701 rUckgekoppel t (1703) ist. Damit stellt in 
diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. 
Eine PAE (1705) liest und schreibt die Daten in den als 
Standardspeicher konf igurierten RAM (1704). Eine weitere PAE 
(1706) generiert die Registeradressen. 

Oftmals ist es sinnvoll eine getrennt PAE ,zum Lesen der Daten 
zu verwenden. Dann wiirde 1705 nur schreiben und die PAE 1707 
lesen. Dabei wird eine weitere PAE (1708, gestrichelt 
unterlegt) zum Generiereh der Leseadressen einzufiihren. 
Es ist nicht zwingend notwendig getrennte PAEs zum Generieren 
der Adressen zu verwendet. Oftmals sind die Register implizit 
und konnen dann als Konstanten konfiguriert werden von den 
datenverarbeitenden PAEs gesendet werden. 
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Die Verwendung von AkkumuiaLor-Prozessoren for einen Register- 
Prozessor ist beispielshaf t . Ebenso kbnnen zum Aufbau von 
Registerprozessoren PAEs ohne Akkumulator verwendet werden. 
Die in Figur 17 gezeigte Architektur kann zur Ansteuerung von 
Registern ais auch zum Ansteuern einer Load/Store-Einhei t 
dienen. 

Bei der Verwendung ais Load/Store-Einheit ist es fast zwingend 
notwendig einen externen RAM (1709) nachzuschalten, sodafi 1704 
nur einen temporaren Ausschnitt aus 1709, quasi ais Cache, 
darstellt . 

Auch bei der Verwendung von 1704 ais Register-Bank ist es 
teilweise sinnvoil einen externen Speicher nachzuschalten, 
Dadurch konnen PUSH/ POP Operationen nach dem Stand der Technik 
durchgefiihrt werden, die den Registerinhalt in einen Speicher 
schreiben oder aus diesem Lesen. 

In Figur 18 ist ais Beispiel eine komplexe Maschine abgebildet 
bei der das PAE -Array (1801) einerseits einen Load/Store- 
Einheit (1802) mit nachgeschaltetem RAM (1803) ansteuert und 
gleichzeitig eine Register-Bank (1804) mit nachgeschaltetem 
RAM (1805) aufweist. 1802 und 1804 konnen jeweils von einer 
PAE oder einer beiiebigen Gruppe von PAEs angesteuert werden. 
Die Einheit wird gemaft dem VPU-Prinzip von einer CT (1806) 
gesteuert . 

Wichtig ist, dafi zwischen der Load/Store-Einheit (1802) und 
der Register-Bank (1804) und deren Ansteuerung kein 
wesentlicher Unterschied besteht. 

Die Figuren 19,20,21 zeigen einen erf indungsgemafsen internen 
Speicher, der zugleich eine Kommunikat ions einheit mit externen 
Speichern und/oder Peripherie darsteiit. Die einzelnen Figuren 
zeigen unterschiedliche Betr iebsarten desselben Speichers. Die 
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Betriebsarten, sowie einzelne Detaileinstellungen werden dabei 
konf iguriert . 

Figur 19a zeigt einen erf indungsgemaflen Speicher im 
"Register/Cache" Modus. Im erf indungsgemaflen Speicher (1901) 
sind Datenworre eines fur gewohnlich grofieren una langsameren 
externen Speichers (1902) abgelegt. 

Der Datenaustausch zwischen 1901, 1902 und den iiber einen Bus 
(1903) angeschlossenen PAEs (nicht dargestellt) findet dabei 
wie folgt statt, wobei unter zwei Betriebsarten unrerschieden 
wird: 

A) Die von den PAEs von dem Hauptspeicher 1902 geiesenen oder 
gesendeten Daten werden in 1901 mitteis eines Cache-Verf ahrens 
gepuffert. Dabei kann jedes bekannte Cache-Verf ahren zum 
Einsatz kommen. 

B) Mitteis einer Load/Store-Einheit werden die Daten 
bestimmter Adressen zwischen 1902 und 1901 ubertragen. Dabei 
werden bestimmte Adressen, sowohi in 1902 als auch in 1901 
vorgegeben, wobei fur 1902 und 1901 gewohnlicherweise 
unterschiedliche Adressen verwendet werden. Die einzelnen 
Adressen konnen dabei durch Konstante Oder durch Berechnungen 
in PAEs erzeugt werden. In dieser Betriebsart arbeitet der 
Speicher 1901 als Registerbank. 

Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabei 
beiiebig sein und hangt ledigiich von den jeweiligen 
Algorithmen der beiden Betriebsarten ab. 

In 19b ist die entsprechende Maschine als Blockdiagramm 
dargestellt. Dem Bus zwischen 1901 und 1902 ist eine 
Steuereinheit (1904) zugeordnet, die je nach Betriebsart als 
Load/Store-Einheit (nach dem Stand der Technik) oder als 
Cache-Kontroller (nach den Stand der Technik) agierr. Dieser 
Einheit kann bei Bedarf eine Speicherverwaltungseinheit (MMU) 
(1905) mit Adressubersetzung und -uberprufung zugeordnet 
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werden. Sowohl 1904 als auch 1905 kann von den PAEs 
angesteuert werden. So wird beispielsweise die MMU 
- programmiert , die Load/Store Adressen gesetzt oder ein Cache- 
Flush ausgelost. 

Figur 20 zeigt den Einsatz des Speichers (2001) im FIFO-Modus, 
in welchem nach dem bekannten FIFO-Prinzip Datenstrome 
entkoppelt werden. Der typische Einsatz ist in einem Schreib- 
(2001a) oder Leseinterf ace (2001b) . Dabei werden Daten 
zwischen den PAEs, die an dem internen Bussystem (2002) 
angeschlossen sind und dem Peripheriebus (2003) zeitlich 
entkoppelt . 

Zur Steuerung des FIFOs ist eine Einheit (2004) vorgesehen, 
die den Schreib- und Lesezeiger des FIFOs abhangig von den 
Busoperationen von 2003 und 2002 steuert. 

In Figur 21 ist das Arbeitsprinzip der erfindungsgemaflen 
Speicher im Stack-Modus dargestellt. Ein Stack ist (nach dem 
Stand der Technik) ein Stapelspeicher , dessen 

oberstes/unterstes Element das gerade Aktive ist. Daten werden 
immer oben/unten angefiigt, ebenso werden die Daten oben/unten 
entfernt. D.h. das zuletzt geschriebene Datum ist auch das, 
welches zuerst gelesen wird (Last In First Out) . Ob ein Stack 
nach oben oder unten wachst, ist unbedeutend und 
implementierungsabhangig. Im folgenden Ausf uhrungsbeispiel 
werden Stacks betrachtet, die nach oben wachsen. 

Dabei sind die aktuellsten Daten im internen Speicher 2101 
gehalten, der aktuellste Eintrag (2107) befindet sich ganz 
oben in 2101. Alte Eintrage sind auf den externen Speicher 
2102 ausgelagert. Wachst der Stack weiter, reicht der Platz im 
internen Speicher 2101 nicht mehr aus. Bei Erreichen einer 
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bestimmten Datenmengey die durch_ eine (frei wahlbare) Adresse 
in 2101 Oder einen (frei wahlbaren) Wert in einem 
Eintragszahler reprasentiert sein kann, wird ein Teil von 2101 
als Block an das aJctuellere Ende (22:03) des Stacks in 2102 
geschrieben. Dieser Teil sind die altesten und somit am 
wenigsten aktuellen Daten (2104) . Danach werden die 
verbleibenden Daten in 2101 so verschoben, daB die nach 2102 
kopierten Daten in 2101 mit den verbleibenden Daten (2105) 
Uberschrieben werden und somit gemigend freier Speicher (2106) 
fur neue Stackeintrage entsteht. 

Nimmt der Stack ab, werden ab einem gewissen (frei wahlbaren) 
Punkt die Daten in 2101 so verschoben, daft hinter den altesten 
und unaktuellsten Daten freier Speicher entsteht. In den 
f reigewordenen Speicher wird ein Speicherblock aus 2102 
kopiert, der dann in 2102 geloscht wird. 

Mit anderen Worten reprasentieren 2101 und 2102 einen einzigen 
Stack, wobei die gerade aktuellen Eintrage in 2101 liegen und 
die alteren und weniger aktuellen in 2102 ausgelagert sind. 
Quasi stellt das Verfahren einen Cache fur Stacks dar. Da die 
Datenblocke vorzugsweise per Blockoperationen iibertragen 
werden, kann der Datentransf er zwischen 2101 und 2102 in den 
schnellen Burst-Betriebsarten moderner Speicher (SDRAM, 
RAMBUS, etc.) ausgefuhrt werden. 

Es soli nochmals erwahnt werden, daB im Ausfiihrungsbeispiel in 
Fig. 21 der Stack nach oben wachst. Sollte der Stack nach 
unten wachsen (eine haufig verwendete Methode), sind die 
Positionen oben/unten und die Richtungen in die die Daten 
innerhalb eines Speichers bewegt werden genau vertauscht . 

Sinnvollerweise wird der interne Stack 2101 als eine Art 
Ringspeicher ausgestaltet . Die Daten an einem Ende des Ringes 
werden zwischen PAEs und 2101 iibertragen und am anderen Ende 
des Ringes zwischen 2101 und 2102. Dadurch entsteht der 
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Vorteil, daii einfach Daten zwischen 2101 unci 2102 verschoben 
werden kbnnen, ohne Einfluii auf die internen Adressen in 2101 
zu haben. Lediglich die Positionszeiger der unteren und oberen 
Daten und der Fullstandszahler mussen jeweils angepaBt werden. 
Die Datenlibertragung zwischen 2101 und 2102 kann durch die 
bekannten Ringspeicher-Flags "beinahe voll (almost full) / 
voll (full)" und "beinahe leer (almost empty) / leer (empty)" 
ausgelost werden. 

Die notwendige Hardware ist als Blockschal tbild in Fig 21b 
dargestellt. Dem internen Stack 2101 ist eine Einheit (2110) 
zur Verwaltung der Zeiger und Zahler zugeordnet. In den Bus 
(2114) zwischen 2101 und 2102 ist eine Einheit (2111) zur 
Steuerung der Datentransf ers eingeschleif t . Dieser Einheit 
kann eine MMU (2112) nach dem Stand der Technik mit den 
entsprechenden Prilf systemen und Adresstibersetzungen zugeordnet 
werden . 

Die Verbindung zwischen den PAEs und 2101 wird uber das 
Bussystem 2113 realisiert. 

In Figur 22 ist ein Beispiel fur das Umsortieren von Graphen 
gezeigt. Die linke Spalte (22.. a) zeigt eine unoptimierte 
Anordnung von Befehlen. Dabei werden die Pointer A (2207a) und 
B (2211a) geladen. Jeweils bereits einen Takt spacer werden 
die Werte der Pointer benotigt (2208a, 2212a) . Diese 
Abhangigkeit ist zu kurz urn effizient ausgefuhrt zu werden, da 
zum Laden aus dem Speicher eine bestimrate Zeit (2220a, 2221a) 
benotigt wird. Durch umsortieren der Befehle (22.. b) werden 
die Zeitraume maximal vergrbfiert (2220b, 2221b) . Obwohl in 
2210 und in 2208 der Wert des Pointers von A benotigt wird, 
wird 2208 nach 2210 einsortiert, da dadurch mehr Zeit zur 
Berechnung von B gewonnen wird. Es ist moglich Berechnungen 
die von den Pointern unabhangig sind (2203,2204,2206) 
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beispielswexse zwischen 2211 und 2212 einzufugen urn mehr Zeit 
fur die Speicherzugrif f e zu erhalten. Ein Compiler oder 
Assembler kann hier anhand von Systemparametern, die die 
Zugrif f zeiten reprasentieren, die entsprechende Optimierung 
vornehmen. 

Figur 23 zeigt einen Sonderfall der Figuren 4-7. Haufig 
besteht ein Algori thmus , auch innerhalb von Schleifen, aus 
Datenf lufiteilen und sequentiellen Teilen. Derartige Strukturen 
konnen gemafl dem beschriebenen Verfahren unter Einsatz des in 
PACT 07 beschriebenen Bussystems effizient aufgebaut werden. 
Hierzu wird das RDY/ACK-Protokoll des Bussystems zunachst urn 
das erf indungsgemafie REQ/ACK-Protokoll erweitert. Dadurch 
konnen gezielt Registerinhalte einzelner PAEs von einer Oder 
mehreren anderen PAEs oder von der CT abgefragt werden. 
Eine Schleife (2305) wird nun in mindestens zwei Graphen 
zerlegt, einen ersten (2301), der den Datenf luflanteil 
reprasentiert und einen zweiten (2302), der den sequentiellen 
Anteil abbildet. 

Ein bedingter Sprung wahlt zwischen den beiden Graphen. Das 
besondere ist nun, daft 2302 den internen Zustand von 2301 
kennen zur Ausfuhrung benotigt und umgekehrt 2301 den Zustand 
von 2302 kennen muB. 

Dies wird realisiert, indem der Zustand genau einmal, namlich 
in den Regi stern der PAEs des perf ormanteren Datenf luBgraphen 
(2301) gespeichert wird. 

Wird in 2302 gesprungen, liest der Sequenzer bei Bedarf die 
Zustande der jeweiligen Register mittels des Bussystems aus 
PACT 07 aus (2303) . Der Sequenzer fuhrt seine Operationen aus 
und schreibt alle geanderten Zustande in die Register 
(wiederum uber das Bussystem nach PACT07) zuruck (2304). 
Abschlieftend soil angemerkt werden, dafi es sich bei den 
besprochenen Graphen nicht unbedingt urn enge Schleifen (2305) 
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handeln mufi. Das Verfahren ist genereil auf jeden 
Teilalgorithmus verwendbar, der innerhalb eines 
Programmablauf es mehrfach ausgefiihrt wird~ (reentrant) und 
wahlweise entweder sequentiell oder -parallel (datenf lufiartig) 
abgearbeitet wird, wobei die Zustande zwischen dem 
sequentiellen und dem parallelen Teil transferiert werden 
miissen. 

Die Waverekonf igurierung bietet erhebliche Vorteile bei der 
Geschwindigkei t der Umkonf iguration, insbesondere bei 
einfachen sequentiellen Operacionen. 

Eine grundlegende Besonderheit dieser Verarbei tungsmethode 
ist/ da& der Sequenzer auch als externen Mikroprozessor 
ausgestaltet sein kann. Das bedeutet dafi ein Prozessor liber 
die Datenkanale mit dem Array verbunden ist und lokale, 
temporare Daten uber Bussysteme mit dem Array austauscht. 
Samtliche sequentielle Teile eines Algorithmus die nicht in 
das Array aus PAEs abgebildet werden konnen werden auf dem 
Prozessor abgewickelt. 

Es mufi zwischen drei Bussystemem unterschieden werden: 

1. Datenbus, der den Austausch der verarbei teden Daten 
zwischen VPU und Prozessor regelt. 

2. Registerbus, der den Zugriff auf die Register der VPU 
ermoglicht und den somit den Datenaustausch (2302, 2304) 
zwischen 2302 und 2301 gewahrleistet . 

3. Konf igurationsdatenbus, der das Array der VPU konf iguriert . 

In Figur 24 sind die Auswirkungen zeitlich dargestellt. 
Einfach schraffierte Flachen scellen datenverarbei tende PAEs 
dar, wobei 2401 PAEs nach der Umkonf iguration und 2403 PAEs 
vor der Umkonf iguration zeigen. Doppelt schraffierte Flachen 
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(2402) zeigen PAEs die gerade umkonf iguriert werden Oder auf 
die Umkonf iguration warten. 

Figur 24a zeigt den Einflufi der Wave-Rekonf igurierung auf 
einen einfachen sequentielien Algorithmus . Hier ist es 
mogliche exakt die PAEs umzukonf igurieren, denen eine neue 
Aufgabe zugeteilt wird. Da in jedem Takt eine PAE eine neue 
Aufgabe erhalt kann dies effizient, namlich zeitgleich 
durchgefiihrt werden. 

Beispielsweise dargestellt ist eine Reihe von PAEs aus der 
Matrix aller PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit jeweils einem Takt Verzogerung. 

In Figur 24b ist die zeitliche Auswirkung der Umkonf iguration 
von grofien Teilen dargestellt. Beispielsweise dargestellt ist 
eine Menge von PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit einer unterschiedlichen Verzogerung 
von jeweils mehreren Takten. 

Wahrend zun&chst nur ein kleiner Teil der PAEs umkonf iguriert 
wird Oder auf die Umkonf iguration wartet, wird diese Flache 
mit zunehmender Zeit grofier, bis alle PAEs umkonf iguriert 
sind. Das grofier werden der Flache bedeutet, daB, bedingt 
durch die zeitliche Verzogerung der Umkonf iguration immer mehr 
PAEs auf die Umkonf iguration warten (24 02) . Dadurch geht 
Rechenleistung verloren. 

Es wird daher vorgeschlagen ein breiteres Bussystem zwischen 
der CT ( insbesondere des Speichers der CT) und den PAEs 
einzusetzen, das genugend Leitungen zur Verfiigung stellt, um 
innerhalb eines Taktes mehrere PAEs zugleich 
umzukonf igurieren . 

Figur 25 verdeutlicht die Skalierbarkeit der VPU-Technologie . 
Die Skalierbarkeit geht im Wesentlichen aus dem Ausrollen 
eines Graphens hervor, ohne daB eine zeitliche Abfolge 
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einzelne Teilappiikationen trennt. Als Beispiel ist der 
Algorithmus aus Figur 4 gewahlt. In Figur 25a werden die 
einzelnen Teilgraphen zeitlich nacheinander auf die VPU 
ubertragen, wobei entweder B a Oder Bj geiaden wird. In Figur 
25b werden aiie Teilgraphen auf eine Menge von VPUs ubertragen 
und mit Bussystemen untereinander verbunden. Dadurch konnen 
grofie Datenmengen ohne den negativen Einflufi des 
Umkonf igurierens ieistungsf ahig abgearbeitet werden. 

Figur 26 zeigt eine Schaltung zur Beschleunigung der (Um-) 
konf igurationszeit von PAEs. Gieichzeitig kann die Schaltung 
zur Verarbeitung von sequentiellen Algorithmen verwendet 
werden. Das Array von PAEs (2605) ist in mehrere Teile (2603) 
partitioniert . Jedem Teil ist eine eigenstandige Einheit zur 
(Um-) konf iguration (2602) zugeordnet . Diesen Einheiten 
ubergeordnet ist eine CT (2601) nach dem Stand der Technik 
(vgl. PACT10), die wiederum an eine weitere CT oder an einen 
Speicher angeschlossen ist (2604) . Die CT lad die Algorithmen 
in die Konf igurationseinheiten (2602) . Die 2602 laden 
selbstandig die Konf igurationsdaten in die ihnen zugeordneten 
PAEs. 

In Figur 27 ist ein Aufbau einer Konf igurationseinheit 
dargestellt. Kern der Einheit ist ein Sequenzer (2701) der 
eine Reihe von Befehlen beherrscht. 
Die wesentlichen Befehle sind: 
wait <trg#> 

Warten auf das Eintreffen eines bestimmten Triggers aus dem 
Array, der angibt, welche nachste Konf iguration geiaden werden 
soil . 

lookup <trg#> 

Gibt die Adresse des durch einen eintref f enden Trigger 
aufgerufenen Unterprogramms zuriick. 
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jmp <adr> 

Sprung nach Adresse 
call <adr> 

Sprung nach Adresse. Rucksprungadresse wird auf dem Stack 
gespeichert 

jmp <cond> <adr> 

Bedingter Sprung nach Adresse 

call <cond> <adr> 

Bedingter Sprung nach Adresse. Rucksprungadresse wird auf dem 
Stack gespeichert 

ret 

RUcksprung auf die auf dem Stack gespeicherte 
Rucksprungadresse 

mov <target> <source> 

Ubertragt ein Datenwort von Quelle (source) an ein Ziel 
(target) . Quelle und Ziel konnen jeweils in einem Speicher 
oder eine Peripherieadresse sein. 

Im wesentlichen sind die Befehle aus PACT10, d.h. der 
Beschreibung der CT bekannt. Wesentlicher Unterschied in der 
Implementierung der 2602 ist, dafi nur sehr einfache Befehle 
zur Datenverwaltung verwendet werden und kein vollstandiger 
Mikrokontroller verwendet wird. 

Eine bedeutende Erweiterung des Bef ehlssatzes ist der "pabm"- 
Befehl zum Konf igurieren der PAEs. Es stehen zwei Befehle 
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(pabmr, pabmm) zur VerfUgung, die f olgendermassen aufgebaut 
sind: 
a) 



pabmr 


regno 


count - 


pa_adr 0 


pa_dta,-, 


pa_adri 


pa_dta: 






pa_adr C our,t 


pa_dta C our»t 




pabmm 


000 


count 


offset 


pa_adr 0 


pa_dta 0 


pa_adri 


pa_dta; 






pa_adr count 


pa_dta C ount 



b) 



pabmr 


regno 1 count 


mem re f 



pabmm 
offset 



000 



count 



memref 



Die Befehle kopieren einen zugeordneten Block von PAE-Adressen 
und PAE-Daten vom Speicher zu dem PAE-Array. Durch <count> ist 
angegeben, wie groft der zu kopierende Datenblock ist. Der 
Datenblock ist entweder direkt an den Opcode angehangt (a) 
oder durch Angabe der erste Speicheradresse <memref> 
referenziert (b) . 
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Jede pa_adr n -pa_dta ri -Zeile stellt eine Konf iguration fur eine 
PAE dar. Dabei gibt pa__adr r , die Adresse und pa_dta n das 
Konf igurationswort der PAE an, 

Aus PACT10 ist das RDY/ACK-RE J Protokoll bekannt. Werden die 
Konf igurationsdaten von einer PAE angenommen, quittiert die 
PAE die gesendeten Daten mit einem ACK. Kann dagegen eine PAE 
die Konf igurationsdaten nicht annehmen, da sie sich nicht in 
einem umkonf igurierbaren Zustand befindet, sendet sie ein REJ 
zuruck. Dadurch schlagt die Konf iguration des Teilalgorithmus 
fehl. 

Die Stelle mit REJ zuriickgewiesenen pa_adr r ,-pa_dta n -Zeile wird 
gespeichert. Die Befehle werden zu einem spateren Zeitpunkt 
erneut aufgerufen (vgl. PACT10, FILMO) . Sofern der Befehl 
kompiett abgearbeitet wurde, d.h. es trat kein REJ auf, fUhrt 
der Befehl keine weitere Konf iguration durch sondern 
terminiert sofort. Trat ein REJ auf, springt der Befehl direkt 
an die Stelle der zuriickgewiesenen pa_adr r ,-pa_dta n -Zeile . Je 
nach Befehl wird die Stelle unterschiedlich gespeichert: 
pabmr: Die Adresse wird in dem mit <regno> genannten Register 
gespeichert. 

pabmm: Die Adresse wird direkt im Befehl an der Speichers telle 
<of f set> gepeichert • 

Die Befehle sind durch DMA-Strukturen als Speicher/IO- 
Transfers nach dem Stand der Technik impiementierbar . Die DMAs 
werden durch eine Logik zum Uberwachen der eingehenden ACK/ RE J 
erweitert. Die Startadresse wird durch <regno>, bzw. <offset> 
bestimmt. Die letzte Adresse des Datenblocks wird durch die 
Adresse des Befehls plus dessen Opcode-Lange minus eins plus 
die Anzahl der pa_adr n -pa_dta r .-Zeilen berechnet. 
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Es ist sinnvoll auch die in PACT10 beschriebene Schaitung 
durch die genannten Befehie zu erweitern. 



Figur 27 zeigt den Aufbau einer Einheit 2 602. Die Einheit 
besteht aus einem Registersatz 2701 dem eine einfache ALU fiir 
Stackoperationen zugeordnet ist (2702) . Die Struktur enthalt 
Adressregister und Stackpointer . Optional kann eine 
vollwertige ALU eingesetzt werden. Ein Bussystem (2703) mit 
minimaler Breite verbindet Register und ALU. Die Breite ist 
dabei so bemessen, dafi einfache Kontroilf lufibef ehle bzw. 
einfache ALU-Operationen sinnvoll dargestellt werden konnen. 
Zusatzlich werden die vorab beschriebenen PABM-Bef ehle, sowie 
die Befehie nach PACT10 unterstiitzt. Register und ALU werden 
von einem Sequenzer 2706 gesteuert, der durch Ausfuhrung von 
Befehlen einen vollstandigen Microcontroller darstellt. 
An 2703 ist eine Einheit 2704 angeschlossen, die Trigger von 
den zugeordneten PAEs entgegennimmt und quittiert und 
gegebenenf alls ihrerseits Trigger an die PAEs sendet. 
Eingehende Trigger losen dabei in dem Sequenzer 2706 einen 
Interrupt aus Oder werden durch den WAIT-Befehl abgefragt. 
Optional an 2703 angeschlossen ist ein Interface (2705) zu 
einem Datenbus der zugeordneten PAEs urn Daten an die PAEs 
senden zu konnen. Beispielsweise werden die Assemblercodes 
eines in den PAEs implementierten Sequenzers uber 27 05 
gesendet. Das Interface enthalt sofern erforderlich einen 
Konverter zur Anpassung der unterschiedlichen Busbreiten. 
Die Einheiten 2701 bis 2706 sind uber einen 
Multiplexer/Demultiplexer (2707) an ein um ein Vielfaches 
brei teres Bussystem (2708) angeschlossen, das zum Speicher 
(2709) fuhrt. 2707 wird von den niederwert igen Adressen des 
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Adress-/S tackregisters angesteuert, die hoherwertigen Adressen 
fiihren direkt zum RAM (2711). Das Bussystem 2708 fuhrt zu 
einem Interface (2709), das durch die PA-Befehle gesteuert 
wird und zum Konf igurationsbus der FAEs fuhrt. 2708 ist bewuBt 
breit ausgelegt urn moglichst viele Konf igurationsbits pro 
Takteinheit uber 2709 an die PAEs senden zu konnen. Ein 
weiteres Interface (2710) verbindet den Bus mit einer 
ubergeordneten CT, die Konf igurations- und Steuerdaten mit 
2602 austauscht. Die Interface 2710 und 2709 bereits mehrfach 
in PACT10, PACT?? beschrieben worden. 

Wesentlich ist, dafi 2706 einen reduzierten und auf die Aufgabe 
optimierten Minimalsbef ehlssatz beherrscht, der vor allem auf 
die PA-Kommandos, Sprunge, Interrupts und Lookup-Bef ehle 
optimiert ist. Weiterhin ist das optimierte breite Bussystem 
2708, das uber 2707 auf ein schmales Bussystem Ubertragen wird 
von besonderer Bedeutung fur die 
Umkonf igurationsgeschwindigkeit der Einheit. 

Figur 27a ist eine spezielle Ausgestaltung von Figur 27. Das 
Interface 27 05 dient der Ubertragung von Assemblercodes an im 
PAE -Array konf igurierte Sequenzer. Die Verarbeitungsleistung 
der Sequenzer hangt wesentlich von der Geschwindigkeit des 
Interfaces 2705 und dessen Speicherzugrif f es ab. In Figur 27a 
ist 2705 durch eine DMA-Funktion mit direktem Speicherzugrif f 
(2720,,) ersetzt. 2720 r: fiihrt eigene Speicherzugrif fe aus und 
besitzt ein eigenes Bussystem (2722 n ) mit entsprechender 
Anpassung der Busbreite (2721J ; dabei kann der Bus zum Laden 
von breiten Bef ehlssequenzen (ULIW) verhaltnismafiig breit 
ausf alien, sodaft als Grenzfall 2721,, komplett entfallt. Zur 
weiteren Steigerung der Geschwindigkeit ist der Speicher 2711 
physikalisch in 2711a und 2711b n getrennt worden. Der 
Adressraum uber 2711a und 2711b r . verbleibt linear, jedoch kann 
von 2701, 2702, 2706 auf beide Speicherblocke unabhangig 
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gleichzeitig zugegriffen werden; 2720 n kann nur auf 2711b n 
zugreifen. 2720 n , 2721 n und 2711b n kann mehrfach ( r .) 
implementiert sein, damit mehrere Sequenzer gleichzeitig 
verwaltet werden konnen. Dazu kann 2711b n nochmais in mehrere 
physikaiisch unabhangige Speicherbereiche unterteilt werden. 
In Figur 38 ist sind Implement: ierungsbeispieie fur 2720 n 
beschrieben. 

In Figur 2 8 wird der Aufbau von komplexen Programmen 
verdeutlicht . Die Basismodule der Programme sind die Komplex- 
Konf igurationen (2801) die die Konf igurationen einer oder 
mehrere PAEs und der dazugehorenden Bus- und 
Triggerkonf igurationen beinhalten. Die 2801 werden durch 
einen Opcode (2802) reprasentiert, der zusatzliche Parameter 
(2803) besitzen kann. Diese Parameter konnen einerseits 
konstante Datenwerte, variable Startwerte oder auch spezielle 
Konf igurationen beinhalten. Es exist ieren je nach Funktion 
ein, mehrere oder auch kein Parameter. 

Mehrere Opcodes greifen auf einen gemeinsamen Satz von 
Komplex-Konf igurationen zuruck und bilden damit eine Opcode- 
Gruppe (2805) . Die unterschiedlichen Opcodes einer Gruppe 
unterscheiden sich durch besondere Ausgestaltungen der 
Komplex-Konf igurationen. Dazu werden Dif f erenzierungen (2807) 
verwendet, die entweder zusatzliche Konf igurationsworte 
enthalten, oder in 2801 vorkommende Konf igurationsworte 
uberschreiben . 

Eine Komplex-Konf iguration wird, sofern keine Dif f erenzierung 
erforderlich ist, direkt von einem Opcode aufgerufen (2806) . 
Ein Programm (2804) setzt sich aus einer Abfolge von Opcodes 
mit den jeweiligen Parametern zusammen. 

Eine komplexe Funktion kann einmal in das Array geladen werden 

und kann danach durch unterschiedliche Parameter oder 

Dif f erenzierungen neu umkonf iguriert werden. Dabei werden nur 
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die sich andernden Teile der Konf iguration umkonf iguriert . 
Unterschiedliche Opcode-Gruppen greifen auf unterschiedliche 
Komplex-Konf igurationen zuriick. {2805a, 2805n) . 
Die unterschiediichen Ebenen (Komplex-Konf iguration, 
Dif f erenzierung, Opcode, Programm) werden in verschiedenen 
Ebenen von CT's abgearbeitet (vgl. CT Hierarchien in PACT10) . 
Die unterschiediichen Ebenen sind in 2810 dargestellt, wobei 1 
die niederste und N die hochste Ebene darstellt. CTs konnen zu 
beliebig tiefen Hierarchien aufgebaut werden (vgl. PACT10) . 

Es wird in 2801 unter zwei Arten von Codes unterschieden : 

1. Konf igurationsworte, die einen Algorithmus auf das Array 
aus PAEs abbilden. Der Algorithmus kann dabei auch als 
Sequenzer ausgestaltet sein. Die Konf iguration erfolgt iiber 
die Schnittstelle 2709. Konf igurationsworte werden durch die 
Hardware definiert. 

2. Algorithmusspezif ische Codes, die von der moglichen 
Ausgestaltung eines Sequenzer oder Algorithmus abhangig sind. 
Diese Codes werden vom Programmierer oder Compiler definiert 
und dienen zur Ansteuerung eines Algorithmus. 1st 
beispielsweise ein 280 als Sequenzer in die PAEs konf iguriert, 
stellen diese Codes den Opcode des 280 Mikroprozessors dar. 
Algorithmusspezif ische Codes werden uber 2705 an das Array aus 
PAEs gesendet . 

In Figur 29 ist ein mbglicher Grundaufbau einer PAE 
dargestellt. 2901 bzw. 2902 stellen die Eingangs- bzw. 
Ausgangsregister der Daten dar. Den Registern zugeordnet ist 
die komplette Vernet zungslogik zum Aufschalten auf den/die 
Datenbus/se (2920, 2921) des Arrays (vgl PACT 02 ) . Die 
Triggerleitungen gem. PACT 08 werden durch 2903 vom Triggerbus 
(2922) abgegriffen und mit 2904 auf den Triggerbus (2923) 
aufgeschaltet . 2wischen 2901 und 2902 ist eine ALU (2905) 
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beliebiger Ausgestaltung geschaltet. Den Datenbussen (2906, 
2907) und der ALU zugeordnet ist ein Registersatz (2915), in 
welchem lokale Da ten gespeichert werden. Die RDY/ACK- 
Syncronisationssignaie der Datenbusse und Triggerbusse werden 
zu einer Statemachine (oder einem Sequenzer) (2910) gefuhrt 
(2908), bzw. von der Einheit generiert (2909). 

Ober eine Interf aceeinheit (2911) greift die CT mittels eines 
Bussystemes (2912) selektiv auf eine Mehrzahl von 
Konfigurationsregistern (2913) zu. 2910 wahlt liber einen 
Multiplexer (2914) jeweils eine best immte Konf iguration aus, 
oder sequenzt uber eine Mehrzahl von Konfigurationsworten, die 
dann Befehle fur den Sequenzer darstellen. 

Da die VPU-Technologie hauptsachlich gepipelinet arbeitet ist 
es von Vorteil entweder die Gruppe 2901 und 2903 oder die 
Gruppe 2902 und 2904 oder beide Gruppen zusatzlich mit FIFOs 
zu versehen. Dadurch kann verhindert werden, daft eine Pipeline 
durch einfache Verzogerungen (z.B. in der Synchronisation) 
stockt . 

2920 ist ein optionaler Buszugang, Uber den ein der Speicher 
einer CT (siehe Fig. 27, 2720) oder ein gewohnicher interner 
Speicher an Stelle der Konf igurationsregister an den Sequenzer 
2910 geschaltet werden kann. Damit sind grofie sequentielle 
Programme in einer PAE ausftihrbar. Der Multiplexer 2914 wird 
dazu so geschaltet, dafi er nur den internen Speicher 
verbindet . 
Die Adressen werden 

a) fur den CT-Speicher durch die Schaltung in Fig. 38 
generiert . 

b) fur den internen Speicher direkt von 2910 generiert. 

Figur 30 zeigt eine mbgliche Erweiterung der PAE urn der CT 
oder einem anderen zuegschalteten Mikroprozessor einen Zugriff 
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auf die Datenregister zu ermoglichen . Der Adressraum und die 
Interface der Buseinheit (vormals 2911, 3003) werden urn die 
zusatzlichen Datenbusse (3001) erweitert. Den jeweiligen 
Registern wird ein Multiplexer (3002) vorgeschaltet mittles 
dem 3003 uber den Bus 3001 Daten in das Register schreiben 
kann. Die Ausgange der Register werden uber 3001 zuriick an 
3003 gefiihrt. 3003 ubertragt die Daten zur CT 2912. 
Alternativ (3003a) zur Ubertragung der Daten zu CT ist es 
mbglich die Daten durch ein zusatzliches Interface (3004) auf 
einen von der CT unabhangigen Bus (3005) zu ubertragen. 

Figur 31 zeigt die Kopplung des Arrays von PAEs (3101) mit 
einem ubergeordneten Mikrokontroller . 3101 beinhaltet sind 
samtliche IO-Kanale gemafi den erf indungsgemaBen Speichern. 
Die Architektur arbeitet gemafi Figur 23. 2912 in Figur 31a 
stellt den Bus fur die Konf igurationsdaten und Registerdaten 
gem. Figur 30 zur Verfugung. Der Datenbus wird separat durch 
3104 dargestellt. 3102 stellt die CT dar, die in Fig. 31a auch 
den Mikroprozessor darstellt. 

Fur samtliche Bussysteme bestehen unabhangig voneinander 
folgende Anschlufimodelle an einen Prozessor, die je nach 
Programmiermodell und unter Abwagung von Preis und Performance 
gewahlt werden: 

1 . Register-Modell 

Beim Register-Modell wird der jeweilige Bus uber ein Register 
angesprochen, das direkt in den Registersatz des Prozessors 
integriert ist und vom Assembler als Register oder Gruppe von 
Registern angesprochen wird. Dieses Modell ist am 
ef f izientestens wenn einige wenige Register fur den 
Datenaustausch ausreichen. 

2. IO-Modell 
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Der jeweilige Bus liegt im IO-Bereich des Prozessors. Dies ist 
meistens die einfachste und kostengiinstigste Variante. 
3 . Shared-Memory-Model 1 

Der Processor und der jeweilige Bus -teilen sich einen 
Speicherbereich im Datenspeicher . Fur grofle Datenmengen ist 
das eine performance Losung. 
4 . Shared-Memory-DMA-Model 1 

Prozessor und Bus teilen sich wie im vorigen Modell denselben 
Speicher. Zur weiteren Geschwindigkei tssteigerung existiert 
eine schnelle DMA (vgl. Figur 38) 

die den Datenaustausch zwischen Bus und Speicher ubernimmt. 

Zur Steigerung der Obertragungsgeschwindigkeit sollten die 
jeweiligen Speicher physikalisch vom ubrigen Speicher trennbar 
sein (mehrere Speicherbanke) , damit Prozessor und VPU 
unabhangig auf ihre Speicher zugreifen konnen. 

In Figur 31b Ubernimmt eine CT (3102) die Konf iguration des 
Arrays, wahrend ein dedizierter Prozessor (3103) uber 3006 das 
Programmiermodell nach Fig. 23 gewahrleistet , indem er ttber 
3006 Registerdaten mit dem Array austauscht und uber 3104 die 
gewohnlichen Daten austauscht. 

Die Figuren 31c/d entsprechen den Figuren 31a/b, jedoch wurde 
fur den Datenaustausch ein Shared-Memory (3105) zwischen dem 
jeweiligen Prozessor und 3101 gewahlt. 

Figur 32 zeigt eine Schaltung die es den erf indungsgemafien 
Speicherelementen ermogllcht gemeinsam auf einen Speicher Oder 
eine Gruppe von Speichern zuzugreifen, wobei jeder einzelne 
Speicher der Gruppe einzeln und eindeutig adressierbar ist. 
Dazu werden die einzelnen Speicherelemente (3201) auf ein 
Bussystem geschaltet, bei dem jedes 3201 einen eigenen Bus 
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besitzt. Der Bus kann bidirektional augestaltet sein oder 
durch zwei unidirektionale Busse realisiert werden. Pro 
Speicher existiert ein Adress/Datenmultiplexer, der einen Bus 
zum Speicher durchschaltet . Dazu werden die anliegenden 
Adressen jedes Busses dekodiert (3207) und danach jeweils ein 
Bus pro Zeiteinheit durch einen Arbiter (3208) ausgewahlt 
(3204). Die entsprechenden Daten und Adressen werden auf den 
jeweiligen Speicherbus (3205a) ubertragen, wobei eine 
Zustandsmaschine (3206) die notwendigen Protokolle generiert. 
Treffen bei einer Leseanf orderung die Daten vom Speicher ein, 
wird durch die jeweilige Zustandsmaschine die Adresse des 
Speichers auf den Bus geschaltet, der die Daten anfragte. Die 
Adressen aller eingehenden Busse werden pro Bus des Bussystems 
3202 durch eine Muitiplexereinheit ausgewertet und auf den 
entsprechenden Bus ubertragen. Die Auswertung erfolgt 
entsprechend der Auswertung der Ausgangsdaten, d.h. ein 
Dekoder (3209) je Eingangsbus (3205b) ieitet ein Signal auf 
einen Arbiter (3210), der den Daten-Multiplexer ansteuert. 
Damit werden pro Zeiteinheit unterschiedliche Eingangsbusse 
auf das Bussystem 3202 geleitet. 

In Figur 33 wird zur flexibleren und einfacheren Auswertung 
der Trigger- und RDY/ACK-Signale die starre Statemachine / der 
starre Sequenzer 2910 durch einen frei programmierbaren (3301) 
ersetzt. Die voilstandige Funktion von 3301 wird durch die 
Konf igurationsregister 2913 vor der AusfUhrung von Algorithmen 
durch die CT bestimmt. Das Laden von 3301 wird durch ein 
gegeniiber 2911 urn die Verwaltung von 3301 erweitertes CT- 
Interface (3302) gesteuert. Der Vorteil von 3301 liegt darin, 
daft erheblich flexibler mit den unterschiedlichen Trigger- und 
RDY/ACK-Signalen umgegangen werden kann, als in fest 
impleraentierten 2910. Nachteilhaft wirkt sich die Grofie eines 
von 3301 aus . 
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Ein Komproraiii der zu der hochsten Flexibilitat bei 
vertretbarer Grbfie fuhrt ist, die Trigger und RDY/ACK-Signaie 
durch eine Einheit gemaft 3301 auszuwerten und samtliche festen 
Ablaufe innerhalb der PAE durch eine-fest implement ierte 
Einheit nach 2910 zu steuern. 

Die erf indungsgemafie PAE zur Verarbeitung von logischen 
Funktionen ist in Figur 34 abgebildet. Kern der Einheit ist 
eine nachfolgend detaillierter beschriebene Einheit zum 
verkniipfen von einzelnen Signalen (3401) . Uber die ublichen 
Register 2901, 2902, 2903, 2904 werden die Bussignale mit 3401 
verbunden. Die Register werden hierzu urn einen Feed-Mode 
erweitert, der einzelne Signale selektiv ohne sie taktsynchron 
zu speichern (register) zwischen den Bussen und 3401 
austauscht. Der Multiplexer (3402) und die 

Konf igurationsregister (3403) werden an die unterschiedlichen 
Konfigurationen von 3401 angepafit. Ebenso ist das CT-Interface 
(3404) entsprechend ausgestaltet . 

Figur 35 zeigt mogliche Ausgestaltungen von 3401. Ein globaler 
Datenbus verbindet die Logikzellen 3501 und 3502 mit den 
Registern 2901, 2902, 2903, 2904, Durch Busschalter, die als 
Multiplexer, Gatter, Transmissiongates oder einfachen 
Transistoren ausgelegt sein kbnnen wird 3504 mit den 
Logikzellen verbunden. Die Logikzellen konnen entweder 
komplett einheitlich gestaltet sein, oder unterschiedliche 
Funktionalitat besitzen (3501, 3502) . 3503 stellt einen RAM- 
Speicher dar. 

Mogliche Ausgstaltung der Logikzellen sind: 

- Lookup Tabellen 

- Logik 

- Multiplexer 

- Register 
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Die Auswahl der Funktionen und Vernetzung kann entweder 
" - - - fiexibel programmierbar dutch SRAM-Zellen erfolgen oder 

mittels unveranderlicher ROM oder semistatischer FlashROM 
Speicher. 



Zur Beschleunigung von sequentiellen Algorithmen, die schlecht 
parallelisiert werden konnen ist bei herkommlichen Prozessoren 
spekulative Ausfuhrung bereits Stand der Technik. Die 
parallele Variante fur VPUs ist in Figur 36 dargestellt. Die 
Operanden (3601) werden gleichzeitig an mehrere moglichen 
Pfade von Teilalgorithmen (3602a, 3602b, 3602c) gefuhrt. Die 
Teilagorithmen konnen dabei einen unterschiedlichen Flachen- 
und Zeitbedarf aufweisen. Jeweils nach den Teilalgorithmen 
werden die Daten erf indungsgemafi gespeichert (3612a, 3612b, 
3612c) , bevor sie nach einer Umkonf iguration von den nachsten 
Teilalgorithmen verarbeitet werden (3603). Auch die 
Umkonfigurationszeitpunkte der einzelnen Teilalgorithmen sind 
voneinander unabhangig, ebenso die Zahl der Teilalgorithmen 
selbst (3603, 3614) . Sobald enrscheidbar ist, welcher der 
Pfade zu wahlen ist, werden die Pfade uber einen Bus Oder 
Multiplexer zusammengefiihrt (3605) . Von einer Bedingung 
generierte Triggersignale (vgl. PACT08) (3606) bestimmen 
welcher der Pfade gewahlt und an die nachf olgenden Algorithmen 
weitergeleitet wird. 

Figur 37 zeigt den Aufbau eines Hochsprachencompilers, der 
gewOhnliche sequentielle Hochsprachen (C, Pascal, Java) auf 
ein VPU-System ubersetzt.' Sequentieller Code (3711) wird von 
parallelem Code (3708) getrennt, wodurch 3708 direkt in dem 
Array von PAEs verarbeitet wird. 
Fur 3711 gibt es drei Ausf uhrungsmbglichkeiten: 
1. Innerhalb eines Sequenzers einer PAE (2910) 
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2. Mittels eines in die VPU konf igurierten Sequenzers. Der 
Compiler erzeugt hierzu einerseits einen auf die Aufgabe 
optimierten Sequenzer, andererseits direkt den 
algorithmenspezif ischen Sequenzercode (vgl. 2801) . 

3. Auf einem gewohnlichen externen Prozessor (3103) 

Welche M5glichkeit gewahlt wird hangt von der Architektur der 
VPU/ des Computers ys terns und des Algorithmus ab. 

Der Code (3701) wird zunachst in einem Praprozessor (3702) in 
Datenf luBcode (3716) (der in einer speziellen Version der 
jeweiligen Programmiersprache datenf luftoptimiert geschrieben 
wurde) und gewohnlichen sequentiellen Code getrennt (3717) . 
3717 wird auf parallelisierbare Teilalgorithmen untersucht 
(3703) , die sequentiellen Teilalgorithmen werden ausgesondert 
(3718) . Die parallelisierbaren Teilalgorithmen werden als 
Makros vorlaufig plaziert und geroutet. 
In einem iterativen Prozess werden die Makros mit dem 
datenf lufcoptiraierten Code (3713) zusammen plaziert , geroutet 
und partitioniert (3705) . Eine Statistik (3706) wertet die 
einzelnen Makros, sowie deren Partitionierung hinsichtlich der 
Effizienz aus, wobei die Umkonf igurationszeit und der Aufwand 
der Umkonf iguration in die Ef f izienzbetrachtung einflieBt. 
Ineffiziente Makros werden entfernt und als sequentieller Code 
ausgesondert (3714) • 

Der verbleibende parallele Code (3715) wird zusammen mit 3716 
compiliert und assembliert (3707) und VPU Objektcode 
ausgegeben (3708) . 

Eine Statistik liber die Effizienz des generierten Codes, sowie 
der einzelnen (auch der mit 3714 entfernten Makros) wird 
ausgegeben (3709), der Programmierer erhalt dadurch 
wesentliche Hinweise auf Geschwindigkeitsoptimierungen des 
Programmes . 
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Jedes Makro des verbleibenden sequentiellen Codes wird auf 
seine Komplexitat und Anf orderungen untersucht (3720) . Aus 
einer Datenbank die von der VPU-Architektur und dem 
Computersystem abhangt (3719) wird der jeweils geeignete 
Sequenzer ausgewahlt und als VPU-Code (3721) ausgegeben. Ein 
Compiler (3721) generiert den Assembler code des jeweiligen 
Makros fur den jeweils von 3720 gewahlten Sequenzer und gibt 
ihn aus (3711) . Die 3710 und 3720 sind eng miteinander 
verknupft. Gegebenenf alls verlauft die Abarbeitung iterativ urn 
den geeignetsten Sequenzer mit minimalsten und schnellsten 
Assemblercode zu finden. 

Ein Linker (3722) fafit die Assemblercodes (3708, 3711, 3721) 
zusammen und generiert den ausfuhrbaren Objektcode (3723) . 

Figur 38 zeigt den internen Aufbau von 2720. Kern der 
Schaltung ist ein ladbarer Up/Down-Zahler (3801), der seinen 
Startwert von der Schaltung Fig. 27 von dem Bus 3803 
(entspricht 2703) uber den entsprechend gesetzten Multiplexer 
3802 erhalt. Der Zahler dient als Prograramzahler (PC) fur den 
zugeordneten Sequenzer, der Startwert ist die erste Adresse 
des auszufiihrenden Programmes. Der Wert von 3801 wird uber 
einen Addierer (3805) und 3802 auf den Zahler zuruckgefuhrt . 
Ober den Bus 3804 wird von dem Sequenzer ein Offset an 3805 
gefilhrt, der entweder vom PC abgezogen Oder hinzuaddiert wird. 
Damit sind relative Sprunge effizient implement ierbar . Der PC 
wird Uber den Bus 3811 an das PAE-Array herausgef uhrt und kann 
fUr call -Operationen auf dem Stack gespeichert werden. Fur 
ret-Operationen wird der PC iiber 3804 und 3802 vom Stack auf 
3801 gefuhrt. 

Ober den Multiplexer 3806 wird entweder der PC Oder ein vom 
PAE-Array zugefuhrter Stackpointer (3807) auf einen Addierer 
(3808) gefuhrt. Hier wird ein Offset den Werten abgezogen oder 
hinzuaddiert, der im Register 3809 gespeichert wird und uber 
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3803 geschrieben wird. 3808 ermbglicht die Verschiebung des 
Programmes innerhalb des Speicher 2711. Dadurch werden 
Garbage-collector Funktionen zum Aufraumen des Speichers 
moglich (vgl. PACT10) . Die Adressverschiebung die durch den 
Garbage-collector auftritt wird durch eine Anpassung des 
Offsets in 3809 ausgeglichen . 

Figur 3 8a ist eine Variante von Figur 38 in der der 
Stackpointer (3820) ebenfalls integriert ist. Ober 3804 wird 
nur noch der Offset fur relative Sprunge an 3805 gefuhrt 
(3804a) . Der Stackpointer ist ein Up/Down-Zahler entsprechend 
3801, dessen Startwert der den Beginn des Stack reprasentiert, 
und uber 3803 geladen wird. Der PC wird direkt an den Datenbus 
zum Speicher gefuhrt urn uber einen Multiplexer bei call- 
Operationen auf den Stack geschrieben zu werden. Der Datenbus 
des Speichers wird Uber 3821 und 3802 auf 3801 
zurtickgekoppelt, zur Durchfuhrung von ret-Operationen. 

Figur 39 verdeutlicht die Funktionsweise der Speicher. Der 
Speicher (3901) wird Uber einen Multiplexer (3902) adressiert. 
Im Standard-Modus, Lookup-Modus und Register Modus werden die 
Adressen aus dem Array (3903) direkt an 3901 gefuhrt. Im 
Stack-Modus und FIFO-Modus werden die Adressen in einem 
up/down-Zahler (3904) generiert. In diesem Fall werden die 
Adressen der IO-Seite von einem weiteren up/down-Zahler (3905) 
zur Verfugung gestellt. Die Adressen fur den externen RAM 
(oder 10) werden von einem weiteren up/down-Zahler (3906) 
generiert, die Basisadresse wird von einem Register (3907) 
geladen. Das Register wird von der CT oder einem externen 
Host-Prozessor gesetzt. Die gesamte Steuerung ubernimmt eine 
Statemachine (3908) . Den Zustand des Speichers (voll, leer, 
halbvoll, etc) entnimmt 3908 einem up/down-Zahler (3909) der 
die Anzahl der im Speicher befindlichen Worte zahlt. Wird der 
Speicher blockweise verandert (Stack auf externen Stack 
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schreiben Oder von externem Stack lesen) wird die Grofie des 
Blocks als Konstante (3917) auf einen Addierer/Subtrahierer 
(3910) gegeben, auf den der Zahlerstand von 3909 
zurtickgekoppelt ist. Das Ergebnis wiifd nach 3909 geladen. 
Damit lafct sich der Zahlerstand schnell an blockweise 
Ver&nderungen anpassen. (NatUrlich ist es moglich den Zahler 
auch mit jedem geschriebenen oder gelesenen Wort bei einer 
Blockoperation zu modif izieren) . Fur Cache-Operationen steht 
ein Cache-Kontroller (3911) nach dem Stand der Technik zur 
Verfiigung, dem ein Tag-Speicher (3912) zugeordnet ist. Je nach 
Betriebsart wird der Wert von 3911 oder 3906 Uber einen 
Multiplexer (3913) als Adresse nach aufien gef iihrt (3914 ) . Uber 
den Bus 3915 werden die Daten nach aufcen gefUhrt und uber den 
Bus 3916 werden die Daten mit dem Array ausgetauscht . 

Programmierbeispiele zur Verdeutlichung von Teilalgorithmen 

Ein Modul kann beispielsweise f olgendermafien deklariert 
werden: 

module example 1 

input (varl, var2 : tyi; var3 : ty 2 ) . 

output (resl, res2 : tya) . 

begin 

register <regnamel> (resl) . 
register <regname2> (res2) . 
terminates (resl & res2; 1) . 
end. 

module kennzeichnet den Beginn eines Modules. 

input/ output definiert die Ein-/Ausgangsvariablen mit den 

Typen ty n - 

begin . . . end markieren den Rumpf des Modules . 
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register <regnamel/2> ubergibt das Ergebnis an den Output, 
wobei des Ergebnis in dem durch <regnamel/2> spezif izierten 
Register zwischengespeichert wird. <regnamel/2> ist dabei eine 
globale Referenz auf ein bestimmtes Register. 

Ais weitere Obergabemodi an den Output stehen beispielsweise 
folgende Speicherarten zur Verfugung: 

fxfo <f if oname>, wobei die Daten an einen nach dem FIFO- 
Prinzip arbeitenden Speicher iibergeben werden. <fifoname> ist 
dabei eine globale Referenz auf einen bestimmten, im FIFO- 
Modus arbeitenden Speicher. terminateG wird dabei urn den 
Parameter bzw. das Signal "fifofull" erweitert, der/das 
anzeigt/ dafi der Speicher voll ist. 

stack <stackname> / wobei die Daten an einen nach dem Stack- 
Prinzip arbeitenden Speicher iibergeben werden. <stackname> ist 
dabei eine globale Referenz auf einen bestimmten, im Stack- 
Modus arbeitenden Speicher. 

terminated unterscheidet die Programmierung entsprechend des 
erf indungsgemafien Verfahrens von der herkdmmlichen 
sequentiellen Programmierung. Der Befehl definiert das 
Abbruchkriterium des Modules. Die Ergebnisvariablen resl und 
res2 werden von terminated nicht mit ihrem tatsachlichen Wert 
evaluiert, statt dessen wird nur die Gultigkeit der Variablen 
(also deren Statussignal) geprtift. Dazu werden die beiden 
Signale resl und res2 boolsch miteinander verkntlpft, z.B. 
durch eine UND-, ODER- oder XOR-Operation. Sind beide 
Variablen gtiltig, terminiert das Modul mit dem Wert 1. Das 
bedeutet, ein Signal mit dem Wert 1 wird an die ubergeordneten 
Ladeeinheit weitergeieitet, woraufhin die ubergeordneten 
Ladeeinheit das nachfolgende Module ladt. 
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module example2 

input (varl, var2 : ty 3 ; var3 : zy-J . 

output (resl : ty 4 ) . 

begin 

register <regnamel> (varl, var2) . 
* . » 

fifo <fifonamel> (resl, 256) . 
terminates ( f if of ull (<f if onamel>) ; 1) . 
end. 

register wird in diesem Beispiel uber input-Daten definiert. 
Dabei ist <regnamel> derselbe wie in examplel. Dies bewirkt, 
da& das Register, das die output-Daten in examplel aufnimmt, 
die input-Daten fur example2 zur Verfiigung stellt. 

fifo definiert einen FIFO-Speicher der Tiefe 256 fur die 
Ausgangsdaten resl. Das Full-Flag (f if of ull) des FIFO- 
Speichers wird in terminated als Abbruchkriterium verwendet. 

module main 

input (inl, in2 : tyw in3 : ty 2 ) . 

output (outl : ty 4 ) . 

begin 

define <regnamel> : register (234 ) . 
define <regname2> : register (26) . 

define <fifonamel> : fifo(256,4). // FIFO Tiefe 256 
(varl2, var72) = call examplel (inl, in2, in3) . 

(outl) = call example2 (varl2, var72, var243) . 
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signal (outl) . 
terminated (example2) . 
end. 

define definiert eine Schnittstelle fur Daten (Register, 
Speicher, etc) . Bei der Definition werden die erf orderlichen 
Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. 
Da die Ressourcen jeweils nur einmal zur Verfiigung stehen, 
mussen sie eindeutig angegeben werden. Damit ist die 
Definition global/ d.h. die Bezeichnung gilt fttr das gesamte 
Programm. 

call ruft ein Modul als Unterprogramm auf . 

signal definiert ein Signal als Aus gangs signal/ ohne dafi eine 
Zwischenspeicherung verwendet wird. 

Durch terminates (example2) wird das Modul main terminiert, 
sobald das Unterprogramm example2 terminiert. 

Durch die globale Deklaration "define ..." ist es prinzipiell 
nicht mehr notwendig/ die so definierten input/output Signale 
in die Schni ttstellen-Deklaration der Module aufzunehmen. 
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Patentanspruche 

1. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zells truktur, dadurch gekennzeichet, dafi 
der Datenf lufigraph und Kontrollf luflgraph eines Programms 
extrahiert wird. 

2. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daii 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
moglichst wenig Verbindungen zwischen den Teilgraphen 
bestehen. 

3. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafl 
moglichst wenig Daten zwischen den Teilgraphen ubertragen 
werden. 

4. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 

die Graphen derart in mehrere Teilgraphen zerlegt werden, dafi 
moglichst keine Riickkoppelungen zwischen den Teilgraphen 
bestehen. 

5. Verfahren nach Anspruch 1 dadurch gekennzeichnet, da£ 

die Graphen derart in mehrere Teilgraphen zerlegt werden, daJi 
die Teilgraphen jeweils moglichst exakt den Ressourcen des 
Bausteines angepaftt sind. 

6. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 
zwischen den Teilgraphen Speicherelemente zur Sicherung der 
Daten und Zustande eingeflihrt werden. 

7. Verfahren nach Anspruch 1 dadurch gekennzeichnet, daB 
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innerhalb eines Teilgraphen Statussignale zwischen den Knoten 
ubertragen werden, die den Zustand jedes einzelnen Knotens 
jedem anderen Knoten soweit zur Verfugung stellen. 

8. Verfahren nach Anspruch 1 und 7 dadurch gekennzeichnet , dafi 
eine Menge von Statussignalen an eine Ubergeordnete Einheit, 
die die Konf iguration der Zellen steuert, gefiihrt wird, urn 
eine Umkonf iguration auszulosen. 

9. Verfahren nach Anspruch 1 und 7 dadurch gekennzeichnet/ dafi 
eine Menge von Statussignalen an eine ubergeordnete Einheit, 
die die Konf iguration der Zellen steuert, gefUhrt wird, urn 
einen Zustand an einen nicht in die Zellstruktur geladenen 
Teilgraphen zu ubermitteln. 

10. Verfahren nach Anspruch 1 dadurch gekennzeichnet, dafi 
die Teilgraphen uber mehrere Bausteine verteilt werden. 

11. Verfahren nach Anspruch 1 dadurch gekennzeichnet, da£ 
mehrere Pfade einer Anweisung, von denen je nach Auswertung 
der Anweisung (IF, CASE) immer exakt einer ausgefiihrt wird, 
derart zerlegt werden, dafi jeder Pfad einen Teilgraph ergibt. 

12. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
jedem Datensignal ein Zustand zugeordnet wird, der anzeigt ob 
das Signal giiltig ist oder nicht (RDY) . 

13. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafc 
jedem Statussignal ein Zustand zugeordnet wird, der anzeigt ob 
das Signal gultig ist oder nicht (RDY) . 
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14. Verfahren nach Anspruch 12 und 13 dadurch gekennzeichnet, 
dafi 

der Empfanger eines gultigen Signales den Empfang quittiert 
(ACK) . 

15. Verfahren nach Anspruch 12 und 13 dadurch gekennzeichnet, 
dafi 

der Empfanger anzeigt, dafi er ein Signal erwartet (REQ) . 

16. Verfahren nach Anspruch 15 dadurch gekennzeichnet, dafi 
der Sender anzeigt das erwartete Signal zu senden. 

17. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein erster Teil der Zellstruktur einen Teilgraphen berechnet, 
und dessen Berechnung schrittweise beendet; sobald eine oder 
mehrere Zellen die Berechnung beendet haben, diese als zweiter 
Teil der Zellstruktur umkonf iguriert werden, sodafi ein dritter 
Teil zeitgleich mit den neu konf igurierten Zellen den neuen 
Teilgraphen berechnen (Waf e-Reconf ig) . 

18. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafi 
mehrere Konf igurationsregister einer Zelle gleichzeitig 
verschiedene Konf igurationen verschiedener Teilgraphen 
speichern. 

19. Verfahren nach Anspruch 17 und 18 dadurch gekennzeichnet, 
dafi 

von raehreren Konf igurationen genau eine Konf iguration aktiv 
ist . 

20. Verfahren nach Anspruch 17 und 18 dadurch gekennzeichnet, 



dafi 
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nicht konf igurierte Konf igurationsregister besonders 
ge kenn z e i chne t s ind . 

21. Verfahren nach Anspruch 17 dadurch gekennzeichnet , dafi 
die jeweilige Konf iguration durch von der Zellstruktur 
generierte Statussignale ausgewahlt wird. 

22. Verfahren nach Anspruch 17 dadurch gekennzeichnet, daB 
die jeweilige Konf iguration durch von einer iibergeordneten 
Ladeeinheit generierte Statussignale ausgewahlt wird. 

23. Verfahren nach Anspruch 17 dadurch gekennzeichnet, dafi 
die jeweilige Konf iguration durch extern generierte 
Statussignale ausgewahlt wird. 

24. Verfahren nach Anspruch 17 und 21 bis 23 dadurch 
gekennzeichnet, da£ 

jede Zelle einzeln entsprechend ihrer Konf iguration die 
Statussignale auswertet und die entsprechende Konf iguration 
aktiviert . 

25. Verfahren nach Anspruch 17 und 2 0 bis 24 dadurch 
gekennzeichnet, daB 

bei der Aktivierung eines nicht konf igurierten 
Konf igurationsregisters die Konf iguration bei der 
iibergeordneten Ladeeinheit angefordert wird und bis zum 
vollstandigen Laden der Konf iguration die Abarbeitung des 
Teilgraphen angehalten wird. 

26. Verfahren nach Anspruch 17 dadurch gekennzeichnet, daB 
das Laden einer Konf iguration durch von der Zellstruktur 
generierte Statussignale ausgelost wird. 



27. Verfahren nach Anspruch 17 dadurch gekennzeichnet, daB 
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das Laden einer Konf iguration durch von ubergeordneten 
Ladeeinheit ausgelost wird. 

28. Verfahren nach Anspruch 17 dadureh gekennzeichnet , daB 
das Laden einer Konf iguration durch extern generierte 
Statussignale ausgelost wird. 

29. Verfahren nach Anspruch 17 und 26 bis 28 dadureh 
gekennzeichnet, daB 

jede Zelle einzeln entsprechend ihrer Konf iguration die 
Statussignale auswertet und das Laden der entsprechenden 
Kontiguration veranlaiit. 

30. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet , daB 

in den Zellen Sequenzer integriert sind, die die 

Konf igurationsregister adressieren und ein in den 

Konf igurationsregistern gespeichertes Programm ausfuhren. 

31. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet , daB 

in den Zellen Sequenzer integriert sind, die einen der 
Zellstruktur zugeordneten Speicher adressieren und ein in dem 
Speicher abgelegtes Programm ausfuhren. 

32. Verfahren zur Programmierung von Bausteinen mic ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet, daB 
durch Zusammenschaltung mehrerer Zellen ein Sequenzer gebildet 
wird, der entsprechend des auszuf Uhrenden Programmes 
ausgestaltet ist. 



33. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadureh gekennzeichet, daB 
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ein externen Prozessor zur Ausfiihrung von sequentieilen 
Teilgraphen an den Baustein gekoppelt ist. 

34. Verfahren nach Anspruch 33 dadurch gekennzeichnet, dafi 
das die Ubergeordnete Ladeeinheit zusatzlich als Prozessor zur 
Ausfiihrung von sequentieilen Teilgraphen verwendet wird. 

35. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet / 
dafi 

die Sequenzer Zugriff auf die Datenregister der einzelnen 
Zellen haben. 

35. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
dafi 

zu dem Sequenzer die iibrigen Teilgraphen entsprechend ihrer 
jeweiligen Ausgestaltung konfiguriert werden. 

36. Verfahren nach Anspruch 30 bis 35 dadurch gekennzeichnet, 
da& 

zu dem Sequenzer die iibrigen Teilgraphen entsprechend ihrer 
jeweiligen Ausgestaltung umkonf iguriert werden. 

37. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
dafi 

zu dem Sequenzer Standardrechenwerke konfiguriert werden, die 
dem CISC-Modell entsprechen. 

38. Verfahren nach Anspruch 30 bis 34 und 37 dadurch 
gekennzeichnet, dafi 

vom Compiler entsprechende Befehle zur Ansteuerung der 
Standardrechenwerke generiert werden und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 
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39. Verfahren nach Anspruch 30 bis 34 und 37 bis 38 dadurch 
gekennzeichnet, daft 

vom Compiler entsprechende Befehle zur externen Vernetzung der 
Standardrechenwerke generiert werden -und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 

40. Verfahren nach Anspruch 30 bis 34 und 37 bis 38 dadurch 
gekennzeichnet, dafi 

vom Compiler entsprechende Befehle zur internen Vernetzung der 
Standardrechenwerke generiert werden und dabei mehrere 
Teilgraphen auf ein Standardrechenwerk abgebildet werden. 

41. Verfahren nach Anspruch 30 bis 34 und 37 bis 40 dadurch 
gekennzeichnet, dafi 

die Befehle zyklisch, durch einem Programmzahler bestimmt, 
geladen werden. 

42. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
da£ 

der Sequenzer seine Operanden auf einem Stack verwaltet und 
einen Stackprozessor darstellt. 

43. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
dafi 

der Sequenzer seine Operanden in einem Akkumulator verwaltet 
und einen Akkumulatorprozessor darstellt. 

44. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet, 
dafc 

der Sequenzer seine Operanden in einem Registersatz verwaltet 
und einen Registerprozessor darstellt. 
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45. Verfahren nach Anspruch 30 bis 34 dadurch gekennzeichnet/ 
dafi 

der Sequenzer seine Operanden in einem Speicher verwaltet und 
einen Load/Store-Prozessor darstelltr 

46. Verfahren nach Anspruch 30 bis 34 und 42 bis 4 5 dadurch 
gekennzei chne t , dafi 

der Sequenzer unterschiedliche zur Ausfuhrung des Programmes 
geeignete Verfahren gleichzeitig implementiert hat. 

47. Verfahren nach Anspruch 30 bis 34 und 42 bis 4 6 dadurch 
gekennzeichnet, dafi 

mehrere unterschiedlich ausgestaltete Sequenzer gleichzeitig 
in die Zellstruktur konfiguriert sind. 

48. Verfahren zur Programmierung von Bausteinen mit ein- Oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet , dafi 

im Programm vorkommende Zeiger derart umsortiert werden, dafi 
sie die grofitmogliche zeitliche Unabhangigkeit aufweisen, also 
moglichst viele nicht von einem Zeiger abhangige Befehle 
zwischen zwei Zeigern liegen. 

49. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 

im Programm vorkommende Zeiger derart umsortiert werden, dafi 
die durch den Zeiger ref erenzierten Daten moglichst weit 
hinter der Berechnung des Zeigers verwendet werden. 

50. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
bei Sprungen und Vergleichen alle moglichen Teilgraphen 
solange gleichzeitig in die Zellstruktur konfiguriert und 
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berechnet werden, bis bekannt ist, welcher Teilgraph der durch 
den Sprung oder Vergleich gewahlte ist. 

51. Verfahren nach Anspruch 50 dadurch gekennzeichnet, daft 
die Daten und Zustande samtlicher nicht gewahlter Teilgraphen 
ignoriert werden, und nur die Daten und Zustande des gewahlten 
Teilgraphen wei terverarbeitet werden. 

52. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zells truktur , dadurch gekennzeichet , dafi 
der Zellstruktur einer oder mehrere Speicher zugeordnet sind. 

53. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafi 
der Speicher beliebig frei adressiert wird (Random Access) 

54. Verfahren nach Anspruch 52 dadurch gekennzeichnet , dafi 
der Speicher als Lookup Tabelle verwendet wird. 

55. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafi 
der Speicher als FIFO zur Entkoppelung von Datenstromen 
verwendet wird. 

56. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafi 
der Speicher als Stack fur einen Sequenzer verwendet wird. 

57. Verfahren nach Anspruch 52 dadurch gekennzeichnet, dafi 
der Speicher als Registerbank fur einen Sequenzer verwendet 
wird. 

58. Verfahren nach Anspruch 52 bis 54 und 56 bis 57 dadurch 
gekennzeichnet, da£ 

der Speicher einen Ausschnitt des externen Speichers 
darstellt . 
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59. Verfahren nach Anspruch 52 bis 53 dadurch gekennzeichnet, 
dafi 

der Speicher als Cache fur den externen Speicher arbeitet. 

60. Verfahren nach Anspruch 52 dadurch gekennzeichnet , 
der Speicher durch ein Signal von der Zelistruktur in den 
externen Speicher geschrieben wird. 

61. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der iibergeordneten 
Ladeeinheit in den externen Speicher geschrieben wird. 

62. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 

der Speicher durch ein Signal von der Zelistruktur aus dem 
externen Speicher gelesen wird. 

63. Verfahren nach Anspruch 52 dadurch gekennzeichnet, 
der Speicher durch ein Signal von der iibergeordneten 
Ladeeinheit aus dem externen Speicher gelesen wird. 

64. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet, 

die Basisadresse im externen Speicher frei von der 
Zelistruktur gesetzt wird. 

65. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet, 

die Basisadresse im externen Speicher frei von der 
iibergeordneten Ladeeinheit gesetzt wird. 

66. Verfahren nach Anspruch 52 und 60 bis 63 dadurch 
gekennzeichnet, 
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die Basisadresse im externen Speicher frei von einer externen 
Einheit gesetzt wird. 

66. Verfahren nach Anspruch 52, 57 und 60 bis 66 dadurch 
gekennzeichnet, 

dafi durch das Schreiben und Lesen der Registerbank in/aus dem 
externen Speicher eine Umschaltung von einem Teilgraphen zu 
einem anderen (Kontextswitch mit Push/Pop) ausgefUhrt wird. 

67. Verfahren nach Anspruch 52 und 56 dadurch gekennzeichnet, 
dafi 

der Stack grofier als der Speicher ist, indem Teile des Stacks 
auf den externen Speicher ausgelagert werden. 

68. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die ubergeordneten Ladeeinheiten hierarchisch aufgebaut sind. 

69. Verfahren nach Anspruch 68 dadurch gekennzeichnet, dafi 
auf jeder Hierarchieebene unterschiedliche Teile des 
Konfigurationsprogrammes gespeichert und/oder abgearbeitet 
werden . 

70. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die ubergeordneten Ladeeinheiten breite Speicher zur schnellen 
Obertragung der Konf igurationsdaten aufweisen. 

71. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Speicherbreite fur die Sequenzer ubergeordneten 
Ladeeinheiten uber Multiplexer verringert wird. 
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72. Verfahren zur Programmierung von Bausteinen mic ein- oder 
raehrdimensionaler Zellstruktur , dadurch gekennzeichet, dafi 
die Ubergeordneten Ladeeinheiten einen Befehl zum blockweisen 
Ubertragen der Konf igurationsdaten aufweisen. 

73. Verfahren nach Anspruch 72 dadurch gekennzeichnet , dafi 
der Befehl zum blockweisen Obertragen der Konf igurationsdaten 
nach dem DMA-Prinzip implement iert ist. 

74. Verfahren nach Anspruch 72 dadurch gekennzeichnet/ dafi 
auf den Speicher fiir die Konf igurationsdaten gleichzeitig und 
unabhangig vom restlichen Speicher zugegriffen wird. 

75. Verfahren nach Anspruch 72 dadurch gekennzeichnet , dafi 
mehrere Einheiten zum blockweisen Obertragen der 

Konf igurationsdaten existieren. 

76. Verfahren nach Anspruch 72 und 75 dadurch gekennzeichnet, 
dafi 

gleichzeitig unabhangige Zugriffe auf die Speicher fur die 
Konf igurationsdaten der einzelnen Einheiten erfolgen. 

77. Verfahren nach Anspruch 72 dadurch gekennzeichnet, dafi 
der Befehl beim konf igurieren einer nicht konf igurierbaren 
Zelle abbricht. 

78. Verfahren nach Anspruch 72 und 77 dadurch gekennzeichnet, 
dafi 

der Befehl die Adresse der Konf igurationsdaten der nicht 
konf igurierbaren Zelle speichert. 

79. Verfahren nach Anspruch 72 und 77 bis 78 dadurch 
gekennzeichnet, dafi 
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der Befehl bei einer erneuten Ausfiihrung an der Stelle der 
Konf igurationsdaten der" nicht" konf igurierten Zelle 
weiterarbeitet . 

80. Verfahren nach Anspruch 72 und 77 bis 79 dadurch 
gekennzeichnet, daB 

der Befehl nur dann erneut ausgefuhrt wird, wenn eine Zelle 
nicht konfiguriert werden konnte. 

81. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die iibergeordneten Ladeeinheiten Konf igurationen in ihre 
internen Speicher laden, bevor diese abgerufen werden. 

82. Verfahren nach Anspruch 81 dadurch gekennzeichnet, dafi 
das Laden durch einen Befehl ausgefuhrt wird. 

83. Verfahren nach Anspruch 81 dadurch gekennzeichnet, dafi 
das Laden durch ein Statussignal angestofien wird. 

84. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
Konf igurationen zu Gruppen zusammengef afit werden. 

85. Verfahren nach Anspruch 84 dadurch gekennzeichnet, dafi 
eine Gruppe durch ihren Aufruf verandert personalisiert wird. 

86. Verfahren nach Anspruch 84 bis 85 dadurch gekennzeichnet, 
dafi 

die Gruppen und deren Personalisierung auf iibergeordneten 
Ladeeinheiten niederer Hierarchie gespeichert werden. 
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87. Verfahren nach Anspruch 84 bis 86 daciurch gekennzeichnet/ 
dafi 

die Aufrufe der Gruppen auf ubergeordneten Ladeeinheiten 
hoherer Hierarchie gespeichert werden. 

88. Verfahren nach Anspruch 84 bis 87 dadurch gekennzeichnet, 
dafi 

Programme aus einer Mehrzahl derartiger Aufrufe bestehen. 

89. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur , dadurch gekennzeichet, daii 
Konf igurationen und Bef ehlssequenzen von Sequenzern in den 
ubergeordneten Ladeeineiten gespeichert werden. 

90. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet/ dafi 
Bef ehlssequenzen von Sequenzern in den internen und/oder 
externen Speichern enthalten sind. 

91. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
zwischen den internen Zustanden der Sequenzer und den 
ZustSnden der Datenverarbei tung unterschieden wird. 

92. Verfahren nach Anspruch 91 dadurch gekennzeichnet, dafi 
die Zustande der Datenverarbei tung mit den Daten in der 
Zellstruktur mitgefiihrt werden. 

93. Verfahren nach Anspruch 91 bis 92 dadurch gekennzeichnet, 
dafi 

die Zustande der Datenverarbeitung mit den Daten gesichert 
werden. 
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94. Verfahren nach Anspruch 91 bis 93 dadurch gekennzeichnet, 
dafi 

die Zustande der Datenverarbeitung mit jedem gespeicherten 
Datenwort gesichert werden. 

95. Verfahren nach Anspruch 91 bis 93 dadurch gekennzeichnet, 
daB 

die Zustande der Datenverarbeitung mit dem letzten 
gespeicherten Datenwort vor einer Umkonf iguration gesichert 
werden. 

96. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, daB 
die Adresse des/der zuletzt bearbeiteten Operanden vor einer 
Umkonf iguration gesichert wird. 

97. Verfahren nach Anspruch 96 dadurch gekennzeichnet, daB 
die Zustande der Datenverarbeitung des letzte Operanden vor 
einer Umkonf iguration gesichert werden. 

98. Verfahren nach Anspruch 91 dadurch gekennzeichnet, daB 
die internen Zustande der Sequenzer nicht gesichert werden. 



99. Verfahren zum Compilieren von Programmen fur Bausteine 
ein- oder mehrdimensionaler Zellstruktur, dadurch 
gekennzeichet, daB 

vier Arten von Kode unterschieden werden: 

a) Paralleler Code 

b) Effizient parallelisierbarer Code 

c) Nicht effizient parallelisierbarer Code 

d) Sequentieller Code 
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100. Verfahren nach Anspruch 99 dadurch gekennzeichnet , dafi 
der parallele Code von extrahiert wird. 

101. Verfahren nach Anspruch 99 bis 100 dadurch 
gekennzeichnet, dafi 

der extrahierte Code plaziert und geroutet wird. 

102. Verfahren nach Anspruch 99 bis 101 dadurch 
gekennzeichnet, daG 

die Partitionierung iterativ mit Plazierung und Routing 
durchgefuhrt wird. 

103. Verfahren nach Anspruch 99 dadurch gekennzeichnet, dafi 
der parallelisierbare Code extrahiert wird. 

104. Verfahren nach Anspruch 99 und 103 dadurch 
gekennzeichnet, dafi 

der extrahierte Code plaziert und geroutet wird. 

105. Verfahren nach Anspruch 99 und 103 bis 104 dadurch 
gekennzeichnet, daii 

die Partitionierung iterativ mit Plazierung und Routing 
durchgefuhrt wird. 

106. Verfahren nach Anspruch 99 und 103 bis 105 dadurch 
gekennzeichnet , daft 

jeder Code auf seine Effizienz hin analysiert wird und die 
Codes separiert werden, die nicht effizient arbeiten. 

107. Verfahren nach Anspruch 99 und 103 bis 106 dadurch 
gekennzeichnet, dafi 
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eine Statistik erstellt wird, welche Codes effizient und 
welche ineffizient sind und dem Prograimnierer entsprechende - 
Hinweise auf die effizientere Programmierung gegeben werden. 

108. Verfahren nach Anspruch 99 und 106 dadurch 
gekennzeichnet, daB 

der sequentielle und separierte Code analysiert wird und fur 
jeden einzelnen Code ein geeigneter Sequenzer gewahlt wird; 
wobei 

a) eine Menge von moglichen Sequenzern in einer Datenbank 
vorgegeben werden 

b) gegebenenfalls nur ein Sequenzer zur Verfugung steht 
(Prozessor) 

109 Verfahren nach Anspruch 108 dadurch gekennzeichnet, daB 
der Code fur den entsprechenden gewahlten Sequenzer ubersetzt 
wird. 

110. Verfahren nach Anspruch 108 und 109 dadurch 
gekennzeichnet, daB 

das Auswahlen eines Sequenzers und die Obersetzung iterativ 
verlauft, indem jede Obersetzung auf ihre Effizienz hin 
analysiert wird und der Sequenzer gewahlt wird, dessen 
ubersetzter Code ef f izienteste ist. 

111. Verfahren nach Anspruch 99 bis 111 dadurch 
gekennzeichnet, daB 

die tibersetzten Codes und partitionierten Codes von einem 
Linker zusammengef afit werden und die notwendige 
Kommunikationsstruktur eingefugt wird. 

112. verfahren nach Anspruch 111 dadurch gekennzeichnet, daB 
der Linker notwendige Speicher einfUgt. 
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113. Verfahren nach Anspruch 111 und 112 dadurch 
gekennzeichnet, dafi 

der Linker Strukturen zur Sicherung der internen Zustande der 
Zellstruktur einfiigt. 

114. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein Oder mehrere Speicher direkt an die Zellstruktur 
angeschlossen sind. 

115. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
auf den Speicher wortweise addressierbar zugegriffen wird. 

116. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Lookup-Tabelle arbeitet. 

117. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Stack fur einen Sequenzer arbeitet. 

118. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Registersatz fur einen Sequenzer arbeitet. 

119. Verfahren nach Anspruch 114 bis 118 dadurch 
gekennzeichnet, dafi 

dem Speicher eine Schnitts telle zur Peripherie oder externem 
Speicher zugeordnet oder integriert ist. 

120. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, dafi 

der Speicher nach den FIFO-Prinzip arbeitet und somit 



Datenstrome in der Zellstruktur von externen Datenstrdmen 
entkoppelt . 



* 
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"121. Verfahren nach Anspruch H"4"uhd 119 dadurch 
gekennzeichnet, dafi 

der Speicher als Cache zwischen der Zellstruktur und dem 
externen Speicher arbeitet. 

122. Verfahren nach Anspruch 114 bis 121 dadurch 
gekennzeichnet, dafi 

der Speicher Code fur einen im Zellarray implement ier ten 
Sequenzer speichert. 

122. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
mehrere Speicher auf einen gemeinsamen peripheren Bus 
zugreif en. 

123. Verfahren nach Anspruch 114 und 122 dadurch 
gekennzeichnet , dafi 

ein Arbiter immer genau einen Speicher je gemeinsamen Bus 
auswahlt und diesen uber einen Multiplexer auf den Bus 
auf schaltet . 

124. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
ein Statussignal das Schreiben des Inhaltes des Speichers auf 
den externen Speicher bewirkt. 

125. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
ein Statussignal das Lesen des Inhaltes des Speichers von dem 
externen Speicher bewirkt. 

126. Verfahren nach Anspruch 114 und 124 bis 125 dadurch 
gekennzeichnet, dafi 

die Basisadresse des externen Speichers in einem Register 
gespeichert ist. 
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127. Verfahren nach Anspruch 114 und 124 bis 126 dadurch 
gekennzeichnet, dafi 

das Register von der Zellstruktur gesetzt wird. 

128. Verfahren nach Anspruch 114 und 124 bis 126 dadurch 
gekennzeichnet, dafi 

das Register von der ubergeordneten Ladeeinheit gesetzt wird. 

129. Verfahren nach Anspruch 114 und 124 bis 126 dadurch 
gekennzeichnet, dafi 

das Register von der Peripherie gesetzt wird. 

130. Verfahren nach Anspruch 117 dadurch gekennzeichnet, da£ 
der Stack eine variable Grbfie aufweist, indera der externe 
Speicher zur Vergroflerung des Stacks verwendet wird. 

131. Verfahren nach Anspruch 117 und 130 dadurch 
gekennzeichnet, da£ 

vor einem StackUberlauf der alteste Teil des Stacks auf den 
Stack im externen Speicher geschrieben wird. 

132. Verfahren nach Anspruch 117 und 130 dadurch 
gekennzeichnet, dafi 

vor einem Stackunteriauf der jungste Teil des Stacks von dem 
Stack im externen Speicher gelesen wird. 

133. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher durch Statussignale seinen Status angibt. 

134. Verfahren nach Anspruch 114 und 121 dadurch 
gekennzeichnet, dalS 
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dem Speicher ein TAG-Speicher fur die Cache-Funktion 
zugeordnet ist. 

135. Verfahren nach Anspruch 114 und- 119 dadurch 
gekennzeichnet, daii 

das Interface zur Peripherie mit der Schnittstelle zum 
Zelistruktur synchronisiert ist. 

136. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, dafi 

dem Interface zur Peripherie eine Einheit zur Oberwachung der 
Adressen zugeordnet ist. 

137. Verfahren nach Anspruch 114 und 119 dadurch 
gekennzeichnet, da£ 

dem Interface zur Peripherie eine Einheit zur Obersetzung der 
Adressen zugeordnet ist. 

138. Verfahren nach Anspruch 114 dadurch gekennzeichnet, dafi 
der Speicher als Ringspeicher aufgebaut ist. 

139. Verfahren nach Anspruch 114 und 119 und 138 dadurch 
gekennzeichnet, dafi 

die Zelistruktur und die Peripherie jeweils einen 
Positionszeiger besitzen. 

140. Verfahren nach Anspruch 114 und 138 dadurch 
gekennzeichnet, daft 

ein Register die Menge an Eintragen im Speicher angibt. 

141. Verfahren zum Betrieb von Bausteinen mit ein- Oder 
mehrdimensionaler Zelistruktur, dadurch gekennzeichet, dafi 
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der Status einer Zelle an beliebige anciere Zellen 
weitergeleitet wird. 

142. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur / dadurch gekennzeichet, dafi 
eine Zelle mehrere Konf igurationsregister besitzt. 

143. Verfahren nach Anspruch 142 dadurch gekennzeichnet, dafi 
genau eines der Konf igurationsregister zur Laufzeit ausgewahlt 
wird. 

144. Verfahren nach Anspruch 142 bis 143 dadurch 
ge kenn z e i chne t , dafi 

die Auswahl durch ein Statussignal innerhalb der Zellstruktur 
erfolgt . 

145. Verfahren nach Anspruch 142 bis 143 dadurch 
gekennzeichnet, dafi 

die Auswahl durch ein Statussignal der Zelle erfolgt. 

146. Verfahren nach Anspruch 142 bis 143 dadurch 
ge kenn z e i chne t , dafl 

die Auswahl durch ein Signal von der ubergeordneten 
Ladeeinheit erfolgt . 

147. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
ein Sequenzer in der Zelle integriert ist. 

148. Verfahren nach Anspruch 142 und 147 dadurch 
gekennzeichnet, dafi 

ein in der Zelle implementierter Sequenzer das 
Konf igurationsregister auswahl t. 
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149. Verfahren nach Anspruch 142 und 147 dadurch - 
gekennzeichnet , dafi 

der Sequenzer das Konf igurationswort -als Befehl auswertet. 

150. Verfahren nach Anspruch 147 dadurch gekennzeichnet, dafi 
der Sequenzer auf Statussignale der Zellstruktur reagiert. 

151. Verfahren nach Anspruch 147 dadurch gekennzeichnet, dafi 
der Sequenzer auf Statussignale der Zelie reagiert. 

152. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Akkumulator-Prozessor arbeitet. 

153. Verfahren nach Anspruch 152 dadurch gekennzeichnet, dafi 
das ein Akkumulator in der Zelle integriert ist. 

154. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Register-Prozessor arbeitet. 

155. Verfahren nach Anspruch 154 dadurch gekennzeichnet, dafi 
das ein Registersatz in der Zelle integriert ist. 

156. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Zelle als Stack-Prozessor arbeitet. 

157. Verfahren nach Anspruch 156 dadurch gekennzeichnet, dafi 
das der Stack in einem der Zellstruktur zugeordnetem Speicher 
integriert ist. 
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158- Verfahren zum Betrieb von Bausteinen rait ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Gruppe von Zellen einen Akkumulator-Prozessor bilden. 

159. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, da£ 
eine Gruppe von Zellen einen Stack-Prozessor bilden. 

160. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet , da£ 
eine Gruppe von Zellen einen Register-Prozessor bilden. 

161. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
eine Gruppe von Zellen einen Load/Store-Prozessor bilden. 

162. Verfahren nach Anspruch 158 bis 161 dadurch 
ge kenn z e i chne t , daB 

der Gruppe ein der Zellstruktur zugeordneter Speicher 
zugeordnet ist. 

163. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
auf die Datenregister der Zellen von der ubergeordneten 
Ladeeinheit zugegriffen wird. 

164. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
auf die Datenregister der Zellen von einem ubergeordneten 
Prozessor zugegriffen wird. 

165. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
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auf die Datenregister der Zellen von einer anderen als 
Prozessor konf igurierten Zelle zugegriffen wird. " 

166. Verfahren zum Betrieb von Baust-einen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafl 
auf die Datenregister der Zellen von anderen als Prozessor 
konf igurierten Zellen zugegriffen wird. 

167. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet , dafl 
ein Registersatz in einer Zelle implementiert ist. 

168. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Eingangsregister der Zelle mit FIFOs versehen sind. 

169. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Ausgangsregister der Zelle mit FIFOs versehen sind. 

170. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Zelle mit einero der Zellstruktur zugeordnetem Speicher 
derart gekoppelt werden kann, dafi die Codes fiir den in der 
Zelle implementierten Sequenzer aus dem gekoppelten Speicher 
geladen werden. 

171. Verfahren zum Betrieb von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet, dafi 
die Zelle mit dem Speicher einer iibergeordneten Ladeeinheit 
derart gekoppelt werden kann, daB die Codes fur den in der 
Zelle implementierten Sequenzer von dem Speicher der 
iibergeordneten Ladeeinheit geladen werden. 
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linked by a common inventive concept, a complete search was possible without additional 
cost which would have given rise to additional search fees. 
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ENARBEIT 
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PCT 

INTERNATIONALER RECHERCHENBERICHT 

(Artikel 1 8 sowie Regeln 43 und 44 PCT) 



Aktenzeichen des Anmelders oder Anwalts 

PACT13/PCT 


WEITERES slene Mitteilung Gber die Ubermittlung des internationalen 

Recherchenberichts (Formblatt PCT/ISA/220) sowie, soweit 
VORGEHEN zutreffend, nachstehender Punkt 5 


Internationales Aktenzeichen 

PCT/DE 00/01869 


Internationales Anmeldedatum 
(Tag/Monat/Jahr) 

13/06/2000 


(Fruhestes) Prioritatsdatum (Tag/Monat/Jahr) 

10/06/1999 


Anmelder 

PACT INF0RMATI0NSTECHN0L0GIE GMBH 



Dieser internationale Recherchenbericht wurde von der Internationalen Recherchenbehorde erstellt und wird dem Anmelder gemaB 
Artikel 18 ubermittelt. Eine Kopie wird dem Internationalen Buro ubermittelt. 

Dieser internationale Recherchenbericht umfaBt insgesamt 7 Blatter. 

[X] Daruber hinaus liegt ihm jeweils eine Kopie der in diesem Bericht genannten Unterlagen zum Stand der Technik bei. 



1 . Grundlage des Berichts 

a. Hinsichtlich der Sprache ist die internationale Recherche auf der Grundlage der internationalen Anmeldung in der Sprache 
durchgefuhrt worden, in der sie eingereicht wurde, sofern unter diesem Punkt nichts anderes angegeben ist. 

| | Die internationale Recherche ist auf der Grundlage einer bei der Behorde eingereichten Ubersetzung der internationalen 
Anmeldung (Regel 23.1 b)) durchgefuhrt worden. 

b. Hinsichtlich der in der internationalen Anmeldung offenbarten Nucleotid- und/oder Aminosauresequenz ist die internationale 
Recherche auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das 

| | in der internationalen Anmeldung in Schriflicher Form enthalten ist. 

| | zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 

| | bei der Behorde nachtraglich in schriftlicher Form eingereicht worden ist. 

[ ] bei der Behorde nachtraglich in computerlesbarer Form eingereicht worden ist. 

| | Die Erklarung, daB das nachtraglich eingereichte schriftliche Sequenzprotokoll nicht uber den Offenbarungsgehalt der 
internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

[ ] Die Erklarung, daB die in computerlesbarer Form erfaBten Informationen dem schriftlichen Sequenzprotokoll entsprechen, 
wurde vorgelegt. 

| | Bestimmte Anspruche haben sich als nicht recherchierbar erwiesen (siehe Feld I). 
fX~j Mangelnde Einheitlichkeit der Erfindung (siehe Feld II). 



2. 
3. 



4. Hinsichtlich der Bezeichnung der Erfindung 

pC| wird der vom Anmelder eingereichte Wortlaut genehmigt. 
[ j wurde der Wortlaut von der Behorde wie folgt festgesetzt: 



5. Hinsichtlich der Zusammenfassung 

|j£J wird der vom Anmelder eingereichte Wortlaut genehmigt. 

wurde der Wortlaut nach Regel 38.2b) in der in Feld III angegebenen Fassung von der Behorde festgesetzt. Der 
| j Anmelder kann der Behorde innerhalb eines Monats nach dem Datum der Absendung dieses internationalen 

Recherchenberichts eine Stellungnahme vorlegen. 

6. Folgende Abbildung der Zeichnungen ist mit der Zusammenfassung zu veroffentlichen: Abb. Nr. ] 



[X] wie vom Anmelder vorgeschlagen keine der Abb. 

| [ weil der Anmelder selbst keine Abbildung vorgeschlagen hat. 
l"| weil diese Abbildung die Erfindung besser kennzeichnet. 
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INTERNATIONALER 



HERCHENBERICHT 



Intc^^^^ales Aktenzeichen 

P^^E 00/01869 



A. KLASSIFIZIERUNG DES ANMELDUNGSGEGENSTANDES 

IPK 7 G06F9/45 



Nach der Internationalen Patentklassifikation (IPK) oder nach der nationalen Klassifikation und der IPK 



B. RECHERCHIERTE GEBIETE 



Recherchierter MindestprGfstoff (Klassifikationssystem und Klassifikationssymbole ) 

IPK 7 G06F 



Recherchierte aber nicht zum Mindestprufstoff gehOrende Veroffentlichungen, soweitdiese unterdie recherchierten Gebiete fallen 



Wahrend der internationalen Recherche konsultierte elektronlsche Datenbank (Name der Datenbank und evtl. verwendete Suchbegriffe) 

EPO-Internal f INSPEC 



C. ALS WESENTLICH ANGESEHENE UNTERLAGEN 



Kategorie 0 Bezelchnung der Veroffentlichung, soweit erforderlich unter Angabe der in Betracht kommenden Teile 



Betr. Anspruch Nr. 



DE 196 51 075 A (PACT 
INFORMATI0NSTECHNOLOGIE 6) 
10. Juni 1998 (1998-06-10) 
in der Anmeldung erwahnt 
Zusammenfassung 

Seite 2, Zeile 1 -Seite 3, Zeile 16 
Seite 4, Zeile 7 -Seite 5, Zeile 46 



-/- 



1-5 



12-16 



)( Weitere Veroffentlichungen sind der Fortsetzung von Feld C zu 
entnehmen 



0 



Siehe Anhang Patentfamilie 



' Besondere Kategorien von angegebenen Veroffentlichungen 
"A" Veroffentlichung, die den allgemeinen Stand der Technik definiert, 
aber nicht als besonders bedeutsam anzusehen ist 

'E" alteres Dokument, das jedoch erst am oder nach dem internationalen 
Anmeldedatum veroffentlicht worden Ist 

Veroffentlichung, die geeignet ist, einen Prioritatsanspruch zweifelhaft er- 
scheinen zu lassen, oderdurch die das Veroffentlichungsdatum einer 
anderen im Recherchenbericht genannten Veroffentlichung belegt werden 
soil oder die aus einem anderen besonderen Grund angegeben ist (wie 
ausgefuhrt) 

'O" Veroffentlichung, die sich auf eine mundliche Offenbarung, 

eine Benutzung, eine Ausstellung oder andere MaBnahmen bezieht 

P" Veroffentlichung, die vordem internationalen Anmeldedatum, aber nach 
dem beanspruchten Prioritatsdatum veroffentlicht worden ist 



T" Spatere Veroffentlichung, die nach dem internationalen Anmeldedatum 
oder dem Prioritatsdatum veroffentlicht worden ist und mit der 
Anmeldung nicht kollidiert, sondern nur zum Verstandnis des der 
Erfindung zugrundeliegenden Prinzips oder der ihr zugrundeliegenden 
Theorie angegeben ist 

"X" Veroffentlichung von besonderer Bedeutung; die beanspruchte Erfindung 
kann allein aufgrund dieser Veroffentlichung nicht als neu oder auf 
erfinderischer Tatigkeit beruhend betrachtet werden 

"Y" Veroffentlichung von besonderer Bedeutung; die beanspruchte Erfindung 
kann nicht als auf erfinderischer Tatigkeit beruhend betrachtet 
werden, wenn die Veroffentlichung mit einer oder mehreren anderen 
VerOffentlichungen dieser Kategorie in Verbindung gebracht wird und 
diese Verbindung fur einen Facnmann naheliegend ist 
Veroffentlichung, die Mitglied derselben Patentfamilie ist 



Datum des Abschlusses der internationalen Recherche 



10. Januar 2001 



Absendedatum des internationalen Recherche nberichts 



1 1 06. 2001 



Name und Postanschrift der Internationalen Recherchenbehorde 

Europaisches Patentamt, P.B. 5818 Patentlaan 2 
NL - 2280 HV Rijswijk 
Tel. (+31-70) 340-2040, Tx. 31 651 epo nl, 
Fax: (+31-70) 340-3016 



Bevollmachtigter Bediensteter 



WILTINK, G 
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INTERNATIONALER 



HERCHENBERICHT 



ales Aktenzeichen 



PCT/DE 00/01869 



C(Fortsetzung) ALS WESENTLICH ANGESEHENE UNTERLAGEN 



Kategorie" Bezeichnung der VerOffenllichung, soweit erforderlich unler Angabe der in Betracht kommenden Teile 



Betr. Anspruch Nr. 



FERRANTE J ET AL: "The program dependence 

graph and its use in optimization" 

ACM TRANSACTIONS ON PROGRAMMING LANGUAGES 

AND SYSTEMS, JULY 1987, USA, [Online] 

Bd. 9, Nr. 3, Seiten 319-349, XP002156651 

ISSN: 0164-0925 

ACM Digital Library 

Gef unden im Internet : ... 

<URL: http://www.acm.org/pubs/articles/jour 

nal s/topl as/1987-9-3/p319-f errante/p319-f e 

rrante.pdf > [gef unden am 2000-12-22] 

Zusammenfassung 

Seite 319, Zeile 1 -Seite 320, letzte 
Zeile 

HWANG L J ET AL: "Min-cut replication in 
partitioned networks" 

IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN 
OF INTEGRATED CIRCUITS AND SYSTEMS, 
[Online] 

Bd. 14, Nr. 1, Januar 1995 (1995-01), 

Seiten 96-106, XP000532228 

usa 

ISSN: 0278-0070 

IEEE Xplore 

Gef unden im Internet: 

<URL : http : //i eeexpl ore. i eee . org/i el 1/43/83 
22/00363121. pdf> [gef unden am 2000-12-22] 
Zusammenfassung 

Seite 96, linke Spalte, Zeile 1 -Seite 97, 
linke Spalte, Zeile 12 
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lm Recherchenbericht 
angefuhrtes Patentdokument 
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Verdffentlichung 



Mitglied(er) der 
Patentfamilie 



Datum der 
Veroffentlichung 



DE 19651075 



10-06-1998 
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5651498 A 

1247613 A 

9826356 A 

19781412 D 

0943129 A 



03-07-1998 
15-03-2000 
18-06-1998 
28-10-1999 
22-09-1999 
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INTERNATIONALER RECHERCHENBERICHT 



Sfnationales Aktenzeichen 

PCT/DE 00/01869 



Feld I Bemerkungen zu den Anspruchen, die sich als nicht recherchierbar erwiesen haben (Fortsetzung von Punkt 2 auf Blatt 1 



GemaB Artikel 17(2)a) wurde aus folgenden Grunden fur bestimmte Anspruche kein Recherchenbericht erstellt: 
1 . | | Anspruche Nr. 

weil sie sich auf Gegenstande beziehen, zu deren Recherche die Behorde nicht verpflichtet ist, namlich 



2. | | Anspruche Nr. 

weil sie sich auf Teile der internationalen Anmeldung beziehen, die den vorgeschriebenen Anforderungen so wenig entsprechen, 
daB eine sinnvolle internationale Recherche nicht durchgefuhrt werden kann, namlich 



3. [ | Anspruche Nr. 

weil es sich dabei um abhangige Anspruche handelt, die nicht entsprechend Satz 2 und 3 der Regel 6.4 a) abgefaGt sind. 



Feld II Bemerkungen bei mangelnder Einheitlichkeit der Erfindung (Fortsetzung von Punkt 3 auf Blatt 1) 



Die internationale Recherchenbehorde hat festgestellt, daB diese internationale Anmeldung mehrere Erfindungen enthalt: 

siehe Zusatzblatt 



1 - I I Da der Anmelder alle erforderlichen zusatzlichen Recherchengebuhren rechtzeitig entrichtet hat, erstreckt sich dieser 
1 1 internationale Recherchenbericht auf alle recherchierbaren Anspruche. 



2 I I Da fur alle recherchierbaren Anspruche die Recherche ohne einen Arbeitsaufwand durchgefuhrt werden konnte, der eine 
' 1 zusatzliche Recherchengebuhr gerechtfertigt hatte, hat die Behorde nicht zur Zahlung einer solchen Gebuhr aufgefordert. 



3. Da der Anmelder nur einige der erforderlichen zusatzlichen Recherchengebuhren rechtzeitig entrichtet hat, erstreckt sich dieser 

1 1 internationale Recherchenbericht nur auf die Anspruche, fur die Gebuhren entrichtet worden sind, namlich auf die 

Anspruche Nr. 



1 )( 1 Der Anmelder hat die erforderlichen zusatzlichen Recherchengebuhren nicht rechtzeitig entrichtet. Der internationale Recher- 
chenbericht beschrankt sich daher auf die in den Anspruchen zuerst erwahnte Erfindung; diese ist in folgenden Anspruchen er- 
faBt: 

1-16 



Bemerkungen hinsichtlich eines Widerspruchs j J Die zusatzlichen Gebuhren wurden vom Anmelder unter Widerspruch gezahlt. 

P^J Die Zahlung zusatzlicher Recherchengebuhren erfolgte ohne Widerspruch. 
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Internationales Aktenzeichen PCT/DE 00 /01869 



WEITERE ANGABEN 



PCT/ISA/ 210 



Die internationale Recherchenbehbrde hat festgestel 1 t, daB diese 
internationale Anmeldung mehrere (Gruppen von) Erfindungen enthalt, 
naml i ch : 

1. Anspruche: 1-16 

Verfahren zur Programmi erung von Bausteinen mit ein- oder 
mehrdimensionaler Zel 1 struktur. 



1.1. Anspruche: 1-11 

Verfahren zur Programmi erung von Bausteinen mit ein- 
oder mehrdimensionaler Zel 1 struktur, wobei der Daten- 
und KontrollfluBgraph eines Programns extrahiert wird. 



1.2. Anspruche: 12-16 

Verfahren zur Programmi erung von Bausteinen mit ein- 
oder mehrdimensionaler Zel 1 struktur, wobei die 
Gultigkeit von Daten- oder Statussignalen angezeigt 
wird. 



2. Anspruche: 17-29, 142-146 

Wellenweise Berechnung und Umkonfiguri erung. 



3. AnsprUche: 30-47, 89, 90, 147-162, 170, 171 

In den Zel 1 en integrierte, durch Zusammenschal tung mehrerer 
Zel 1 en gebildete, oder als externer Prozessor an die Zel 1 en 
gekoppelte Sequenzer zur Ausfuhrung vom sequentiellen 
Tei Igraphen. 



4. Anspruche: 48-49 

Umsorti erung von Zeigern. 



5. Anspruche: 50-51 

Gleichzei tige Berechnung und Konfiguri erung von alien 
moglichen Tei Igraphen bei Sprungen und Vergleichen bis das 
Ergebnis des Sprunges oder des Vergleiches bekannt ist. 



6. Anspruche: 52-69, 114-140, 167-169 

Der Zel 1 struktur zugeordnete Speicher oder Regi stersatze. 



7. Anspruche: 70-71 
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Internationales Aktenzeichen PCT/DE 00 /01869 



WEITERE ANGABEN 



PCT/ISA/ 



210 



Schnelle Ubertragung von Konfigurationsdaten durch breite 
Speicher und Multiplexer. 



8. Anspriiche: 72-80 



Blockweise Ubertragung von Konfigurationsdaten. 



9. Anspriiche: 81-83 

Vorladen von Konfigurationen in die Ladeeinhei ten. 



10. Anspriiche: 84-88 

Zusammenfassung von Konfigurationen zu Gruppen. 



11. Anspriiche: 91-98, 141 

Unterschied zwischen Zustanden der Sequenzer und der 
Datenverarbei tung, und deren Sicherung vor einer 
Umkonfiguration. 



12. Anspriiche: 99-113 

Verfahren zum Compilieren von Programmen fur Bausteinen mit 
ein- oder mehrdimensionaler Zel 1 struktur, wobei vier Arten 
von Kode unterschieden werden. 



13. Anspriiche: 163-166, 176-178 

Externer Zugriff auf die Datenregi ster der Zel 1 en. 



14. Anspriiche: 172-175 

Teilweise programmi erbare Zustandsmaschine einer Zelle. 



Bitte zu beachten daB fur alle unter Punkt 1 aufgefiihrten Erfindungen, 
obwohl diese nicht unbedingt durch ein gemeinsames erfinderi sches 
Konzept verbunden sind, ohne Mehraufwand der eine zusatzliche 
Recherchengebuhr gerechtfertigt hatte, eine vol 1 standi ge Recherche 
durchgefuhrt werden konnte. 
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(PCT Article 36 and Rule 70) 



a nr s !/r\ tvt ¥~i r? t% <r\. t» * 



Applicant's or agent's file reference 
! PACT13/PCT 


irnu piidtupd ArTmw See Notification of Transmittal of International 
AC 1 10N Preliminary Examination Report (Form PCT/IPEA/4 1 6) 


International application No. 

PCT/DE00/01869 


International filing date (day/month/year) 

13 June 2000 (13.06.00) 


Priority date (day/month/year) 

10 June 1999(10.06.99) 


International Patent Classification (IPC) or national classification and IPC 
G06F 9/45 


RECEIVED 

NOV 0 7 2002 


Lpphcam pact iNFORMATioNSTECHNOLOGiE GMBff echnology Center 21 00 



1. This international preliminary examination report has been prepared by this International Preliminary Examining 
Authority and is transmitted to the applicant according to Article 36. 



2. This REPORT consists of a total of 



8 



. sheets, including this cover sheet. 



This report is also accompanied by ANNEXES, i.e., sheets of the description, claims and/or drawings which have 
been amended and are the basis for this report and/or sheets containing rectifications made before this Authority 
(see Rule 70. 16 and Section 607 of the Administrative Instructions under the PCT). 



These annexes consist of a total of 



. sheets. 



3. This report contains indications relating to the following items: 
Basis of the report 
Priority 

Non-establishment of opinion with regard to novelty, inventive step and industrial applicability 
Lack of unity of invention 

Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 

Certain documents cited 

Certain defects in the international application 

Certain observations on the international application 



I 




II 


□ 


III 


El 


IV 


E 


V 


E 


VI 


□ 


VII 


□ 


VIII 





Date of submission of the demand 

16 December 2000 (16.12.00) 


Date of completion of this report 

12 October 2001 (12.10.2001) 


Name and mailing address of the IPEA/EP 
Facsimile No. 


Authorized officer 
Telephone No. 
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INTERNATIONAL PRELIMINARY EXAMINATION REPORT 



International application No. 

PCT/DE00/01869 



I. Basis of the report 



1 . This report has been drawn on the basis of (Replacement sheets which have been furnished to the receiving Office in response to an invitation 
under Article 14 are referred to in this report as "originally filed" and are not annexed to the report since they do not contain amendments.): 

| | the international application as originally filed. 

the description, pages *-69 t a s originally filed, 

pages , filed with the demand, 

pages , filed with the letter of 

pages , filed with the letter of 



the claims, 



Nos. 
Nos. 
Nos. 
Nos. 
Nos. 



17-181 



1-16 



, as originally filed, 

, as amended under Article 19, 

, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



13 September 2001 (13.09.200n 



the drawings, 



sheets/fig 
sheets/fig 
sheets/fig 
sheets/fig 



1/41-41/41 



, as originally filed, 
, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



2. The amendments have resulted in the cancellation of: 

□ 

the description, pages 

the claims, Nos. 



□ 

the drawings, sheets/fig 



3 r~1 This report has been established as if (some of) the amendments had not been made, since they have been considered 
— to go beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)). 

4. Additional observations, if necessary: 
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VIII. Certain observations on the international application 

The following observations on the clarity of the claims, description, and drawings or on the question whether the claims are fully 
supported by the description, are made: 

The application does not meet the requirements of 
PCT Article 6 for the following reasons: 

3.1 The last feature of Claim 1 is not sufficiently 
clear. In particular, it is unclear that "the 
graphs'' , i.e. the data flow graph and the control 
flow graph, "are processed in isolation taking into 
consideration the transferred status signals" , 
whereas according to the penultimate feature of 
Claim 1 status signals are determined merely for the 
control flow graphs. 

3.2 Claims 2, 4, 5 and 10 are dependent on Claim 1 and 
are unclear in that they lack information stating 
that the claimed subgraphs are produced by dividing 
the data glow graph and the control flow graph (see 
Claims 2 to 5 and 11) . 

3.3 The description appears to be incomplete, since 
additional indications are missing relating to 
abbreviations (PACT0„.or PACT1...) which should clearly 
designate the prior art (see, for example, page 5, 
second paragraph; page 17, second paragraph; 

page 24, third paragraph and pages 46, 52 to 54, 56 
and 65) . 
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Consequently, the subject matter of Claim 12 does 
not involve an inventive step. 

2.4 The subject matter of dependent Claims 14 to 15 does 
not contain any additional features which involve an 
inventive step: 

The feature introduced in Claim 14 is anticipated by 
Dl (see page 4, lines 13-18). 

The feature introduced in Claim 15 is already 
suggested by the status signal oACK of Dl (see 
page 4, lines 34 and 35), since said status signal 
shows that a receiver can accept, i.e. expect, new 
data . 

Since the prior art according to Dl (see page 4, 
line 11) concerns a handshake protocol, the feature 
introduced in Claim 16 is obvious to a person 
skilled in the art. 
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V. Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 

1 . Statement 

Novelty (N) 



Inventive step (IS) 



Industrial applicability (IA) 



2. Citations and explanations 

2.1 Reference is made to the following document: 
Dl: DE-A-196 51 075. 

2.2 Dl (see page 1, lines 5-47) relates to a method for 
programming (configuring and reconfiguring) modules 
with a one- or multi-dimensional cell structure. In 
said known method each data signal is assigned a 
state (oRDY, rRDY) which shows whether the signal is 
valid or not; see Dl, page 4, lines 19-33. 

Consequently, the subject matter of Claim 11 is not 
novel. 

2.3 It is obvious to a person skilled in the art to 
apply said principle known from Dl relating to the 
allocation of state not only to each data signal, 
but also to each status signal, especially since Dl 
(see page 4, lines 10 and 11; and page 5, lines 14 
and 15) already explicitly proposes that the Sync- 
UNIT, which evaluates a series of input signals that 
execute a handshake protocol, can also be used for 
generating and evaluating error states or additional 
status signals. 
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Supplemental Box 

(To be used when the space in any of the preceding boxes is not sufficient) 



Continuation of: BOX I V . 3 . 



The different inventions are: 



1.1 the subject matter of Claims 1 to 10; and 

1.2 the subject matter of Claims 11 to 16. 



For the following reasons the inventions are not so 
linked as to form a single general inventive 
concept (PCT Rule 13.1): 

The subject matter of Claims 1 to 10 concerns a 
method for programming modules with a one- or 
multi-dimensional ceil structure, a data flow graph 
and a control flow graph of a programme being 
extracted, status signals being determined for the 
control flow graph and the graphs being processed 
in isolation taking into consideration the 
transferred status signals. 

In contrast, the subject matter of Claims 12 to 16 
concerns a method for programming modules with a 
one- or multi-dimensional cell structure, said 
method being characterised merely in that each data 
signal and/or status signal is assigned a state 
which shows whether the signal is valid or not. 

Consequently, there is no recognisable technical 
relationship among those inventions involving one 
or more of the same or corresponding special 
technical features (PCT Rule 13.2). 
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INTERNATIONAL PRELIMINARY EXAMINATION REPORT 


International application No. 

PCT/DE00/01869 


IV. Lack of unity of invention 


1 . In response to the invitation to restrict or pay additional fees the applicant has: 




1 — 1 

1 | restricted the claims. 




1 1 paid additional fees. 




1 1 paid additional fees under protest. 




1 1 neither restricted nor paid additional fees. 





O This Authority found that the requirement of unity of invention is not complied with and chose, according to Rule 68. 1 , 
2 - LiJ not to invite the applicant to restrict or pay additional fees. 



3. This Authority considers that the requirement of unity of invention in accordance with Rules 13.1, 13.2 and 13.3 is 




complied with. 

not complied with for the following reasons: 



See annex 



4. Consequently, the following parts of the international application were the subject of international preliminary examination 
in establishing this report: 

□ 

all parts. 

the parts relating to claims Nos. 1-16 



Form PCT/IPEA/409 (Box IV) (January 1994) 



THIS PAGE BLANK (uspto) 



INTERNATIONAL PRELIMINARY EXAMINATION REPORT 



International application No. 

PCT/DEOO/01869 



III. Non-establishment of opinion with regard to novelty, inventive step and industrial applicability 



The questions whether the claimed invention appears to be novel, to involve an inventive step (to be non obvious), or to be 
industrially applicable have not been examined in respect of: 

the entire international application. 

claims Nos. 1-10. 16-181 



because: 



□ 



the said international application, or the said claims Nos. "" " 

relate to the following subject matter which does not require an international preliminary examination (specify): 



FT7\ the description, claims or drawings (indicate particular elements below) or said claims Nos. 1-10, 16 

are so unclear that no meaningfulopinion could be formed (specify): 

See annex 



□ the claims, or said claims Nos. are so inadequately supported 
by the description that no meaningful opinion could be formed. 

^ no international search report has been established for said claims Nos. 17-181 . 
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Dieses Blatij^iicht Teil und zdhlt nicht als Blatt der inte^^k>nalen Anmeldung. 



PCT 



BLATT FUR DIE GEBUHRENBERECHNUNG 
Anhangzum Antrag 



Aktenzeichen des Anmelders 

oderAnwalts PACT13/PCT 



Von Anmeldeamt auszufiillen 



Internationales Aktenzeichen 



Eingangsstempel des Anmeldeamts 



Anmelder 

- PACT Inf ormat ionstechnologie GmbH, Miinchen 
z VfiRRAPH, Martin ! : 



BERECHNUNG DER VORGESCHRIEBENEN GEBUHREN Csamtlich in DM) 

17^ — 



1. ObermittlungsgebOhr 

2 



recherchengebOhr I 1.848,26 

Die Internationale Recherche ist duichzufuhren von 

(Sind zwei oder mehr Internationale Recherchenbehdrden fir die Internationale Recherche utstandig, 
ist der Name der Behbrde anzugeben, die die Internationale Recherche durchfihren soli ) 



INTERNATIONALE GEBOHR 



Grundgebuhr 

Die Internationale Anmeldung enthalt 1 40 



umfaBt die ersten 30 Blatter 



Blatter. 

I 799,93 



1KL 



x 17,fif) 



= I 1.936,-- 



Anzahl der Blatter Zusatzblattgebuhr 
0ber30 

Addieren Sie die in Feld bl und b2 eingetragenen 
ffietrage, und tragen Sie die Summe in Feld B ein 



bl 



b2 



| 2,735,93 



B 



Bestimmungsgebuhren 

Die internationale Anmeldung enthalt a 11 e Bestimmungen. 



_s_ 



17Z,11 = | T. 376,88 \p] 



Bestimmungsgebuhr 



Anzahl der zu zahlenden 
Bestimmungsgebuhren (maximal 10) 

Addieren Sie die in Feld B und D eingetragenen 

Betrage, und tragen Sie die Summe in Feld I ein . 

(Anmelder aus einigen Staaten haben Anspruch aufeine Ermqfiigung der mternadonalen Gebuhr urn 75%. 
Hat der Anmelder ( oder haben oik Anmelder) einen solchen Anspruch, so betragt der in Feld / einodragenae 
Gesamtbetrag 25% der Summe der in Feld BundD eingetragenen Betr&ge.) 

4. GEBUHR FUR PRIORTTATSBELEG (ggf.) . . . '.fa. 0 ! 1 . . . . 
GESAMTBETRAG DER ZU ZAHLENDEN GEBUHREN 
Addieren Sie die in Feldern T, S, I und P eingetragenen Betrage, 
und tragen Sie die Summe in das nebenstehende Feld ein 



4.112,81 



m 



105,— 



6.241,07 



INSGESAMT 



| | Die Bestiirmiungsgebuhren werden jetzt noch nicht gezahlt 



ZAHLUNGSVYEISE 

|^[ Abbuchimgsauftrag (siehe untenj Q Bankwechsel 

| | Scheck j~] Barzahlung 

| | Postanweisung !^_J Gebuhrenmarken 



| | Kupons 

jj Sonstige (einzeln angeben): 



ABBUCHUNGSAUFTRAG (diese Zahlungsweise gibt es nicht bei alien Anmeldeamtern) 

Das Anmeldeamt/ |Vj wird beauftragt, den vorstehend angegebenen Gesamtbetrag der GebuTiren von meinemlaufendenKonto 

L2J abzubuchen. 



□ 
□ 



abzubuchen. 

(dieses Kastchen darfriur angekreuzt werden, wenn 
Konten dieses Verfahren erkmben) wird beauftragt, 
angegebenen Gesamtbetrags der Gebuhren meinem 

wird beauftragt, die Gebiihr fur die Aussteilung , 
Internationale Biiro der WIPO von meinem laufen 




r jamts iiber laufende 
Jungen des vorstehend 
In bzw. gutzuschreiben. 

ti Ubermittlung an das 
/I 
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* FeldNr.VI PRIORTTAT& 



Anmeldedatum 
der friiheren Anmeldung 
(Tag/Monat/Jahr) 



AP^ ^JCH ~ 

j^-^^ktenzeic 



Blatt Nr. 



Weitere Pri« 



tchen 

der friiheren Anmeldung 



1st 



x^fensj 

dSrauhei 



priiche sind im Zusatzfeld angegeben. 



ere Anmeldung eine: 



nationale Anmeldung: 
Staat 



regionale Anmeldung:* 
regionales Amt 



internationale Anmeldung 
Anmeldeamt 



Zeile (1) 

10. 06 1999 



199 26 538.0 



DE 



Zeile (2) 

09. 01. 2000 



100 00 423.7 



DE 



Zeile (3) 

12, Q4. 2QQQ 



1QQ 13 119,3 I PE 



XX] Das Anmeldeamt wild ersucht, eine beglaubigte Abschrift der oben in der (den) Zeile(n) 1 / 2/ 3_ 

»— — * Ki>7^i^hnptAn friiheren Anmelduneten'i zu erstellen und dem internationalen Biiro zu Qbermitteln (nur falls a 



bezeichneten friiheren Anmeldung(en) zu erstellen und dem internationalen Biiro zu Qbermitteln (nur fails die friihere Anmeldung(en) bei 
dem Amt eingereicht warden ist(sind) t das fiir die Zwecke dieser internationalen Anmeldung Anmeldeamt ist) 

* Falls es sich bei der friiheren Anmeldung urn eine AJUPO-Anmeldung handelt, so mufi in dem Zusatzfeld mindestens em Staat angegeben werden, der 
Mitgliedstaat der Pariser Verbandsubereinkunft turn Schutz des gewerblichen Eigentums ist und fiir den die friihere Anmeldung eingereicht wurde. 



Feld Nr. VII INTERNATIONALE RECHERCHENBEHORDE 



Waal der internationalen Recherchenbehdrde (ISA) 
(falls zyvei oder mehr als zwei internationale Rechcrchen- 
beh&rden fiir die Ausfuhrung der internationalen Recherche 
Zjustandig sina\ geben Sie die von Ihnen gewdhlte Behdrde an; 
der Zweibuchstaben- Code kann benum werden): 

ISA/ 



Antrag anf Nutzung der Ergebnisse einer fniheren Recherche; Bezugnahme anf diese 
friihere Recherche (falls eine friihere Recherche bei der internationalen Recherchenbehdrde 
beantragt oder von Sir durchgefuhrt worden ist): 

Datum (Tag/Monat/Jahr) Aktenzeichen Staat (oder regionales Amt) 



Feld Nr. Vm KONTROLUSTE; EINREICHUNGSSPRACHE 



Diese internationale Anmeldung enthalt 
die folgende Anzahl yon Blattern: 

Antrag 

Beschreibung (ohne 
Sequenzprotokollteil) 

Anspriiche 

Zusammenfassung 

Zeichnungen 

Sequenzprotokollteil 
der Beschreibung 



3 

U 



Blattzahl insgesamt 



Dieser internationalen Anmeldung liegen die nachstehend angekreuzten Unterlagen bei: 

1. □ Blatt fur die Gebuhrenberechnung 

2. □ Gesonderte unterzeichnete Vollmacht 

3. □ Kopie der allgemeinen Vollmacht; Aktenzeichen (falls vorhanden): 

4. □ Begrundung fiir das Fehlen einer Unterschrift 

5. Q Prioritatsbeleg(e), in Feld Nr. VI durch 

folgende Zeilennummer gekennzeichnet: 

.6. □ Obersetzung der internationalen Anmeldung in die folgende Sprache: 

7. Q Gesonderte Angaben zu hinterlegten Mikrooigamsmen oder anderem biologischen Material 

8. □ Protokoll der Nucleotide und/oder Aminosauresequenzen in computeriesbarer Form 

9. D Sonstige {einzeln aufpihren): 



Abbildung der Zeichnungen, die . 
mit der Zusammenfassung A 
veroffentlicht werden solf(Nr.): 


Sprache, in der die ^ _ 
internationale Anmeldung Jj fc 
eingereicht wird: 


FeldNnK UNTERSCHRIFT DES ANMELDERS ODER DES ANWALTS | 




U Juni 2000 



1. Datum des tatsachlichen Eingangs dieser 
internationalen Anmeldung: 


2. Zeichnungen 
1 — 1 einge- 
1 1 gangerr 

r~j nicht ein- 
1—1 gegangem 


3. Geandertes Eingangsdatum aufgrund nachtraglich, jedoch 
Mstgerecht eingegangener Unterlagen oder Zeichnungen 
zur Vervollstandigung dieser internationalen Anmeldung: 


4. Datum des fristgerechten Eingangs der angeforderten 
Richtigstellungen nach Artikel 11(2) PCT: 


5. Internationale Recherchenbehorde TQ A / 
(falls zytei oder mehr zustdndig sind): Id A / 


6. 1 1 Ubennittlungdes Recherchenexemplars bis zur 
1 1 Zahlung der Recherchengebuhr aufgeschoben 



n»htm rles Kinganffs des /Aktenexemolars 



■ Vom Internationalen Biiro auszufullen . 
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VERTRAG UBER0E INTERNATIONALE ZUS/jgtoENARaEJT AUF DEM 

GEBIET DES PATENTWESHNS 




PCT 



16 



OCT 



2001 



INTERNATIONALER VORLAUFIGER PRUFUNGSBERICH" 

(Artikel 36 und Regel 70 PCT) 



Aktenzeichen des Anmelders Oder Anwalts 
PACT13/PCT 


siehe Mitteilung uber die Ubersendung des internationalen 
WEITERES VORGEHEN vorlaufigen Priifungsberichts (Formblatt PCT/IPEA/416) 


Internationales Aktenzeichen 
PCT/DEOO/01869 


I nternationales Anmeldedatum (Tag/Monat/Jahr) 
13/06/2000 ~ 


Prioritatsdatum (Tag/Monat/Tag) 
10/06/1999 


Internationale Patentklassifikation (IPK) Oder nationale Klassifikation und IPK 
G06F9/45 


Anmelder 

PACT INFORMATIONSTECHNOLOGIE GMBH et al. 



1. Dieser internationale vorlaufige Prufungsbericht wurde von der mit der internationalen vorlaufigen Prufung beauftragten 
Behorde erstellt und wird dem Anmelder gemaB Artikel 36 ubermittelt. 

2. Dieser BERICHT umfaBt insgesamt 8 Blatter einschlieGlich dieses Deckblatts. 

S AuBerdem liegen dem Bericht ANLAGEN bei; dabei handelt es sich um Blatter mit Beschreibungen, Anspruchen 
und/oder Zeichnungen, die geandert wurden und diesem Bericht zugrunde liegen, und/oder Blatter mit vor dieser 
Behorde vorgenommenen Berichtigungen (siehe Regel 70.16 und Abschnitt 607 der Verwaltungsrichtlinien zum PCT) 

Diese Anlagen umfassen insgesamt 2 Blatter. 



3. Dieser Bericht enthalt Angaben zu folgenden Punkten: 
I Grundlage des Berichts 



Mangelnde Einheitlichkeit der Erfindung 

Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 



II 


□ 


III 


El 


IV 


la 


V 


ei 


VI 


□ 


VII 


□ 


VIII 





Bestimmte Bemerkungen zur internationalen Anmeldung 



Datum der Einreichung des Antrags 
16/12/2000 


Datum der Fertigstellung dieses Berichts | 
12.10.2001 


Name und Postanschrift der mit der internationalen vorlaufigen 
Prufung beauftragten Behorde: 

Europaisches Patentamt 
Um 0-80298 Munchen 

Tel. +49 89 2399 - 0 Tx: 523656 epmu d 

Fax: +49 89 2399 - 4465 


Bevollmachtigter Bediensteter /£5«5r\ 
Mengele, S (| J) 

Tel. Nr. +49 89 2399 2720 X^^woj^ 
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INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE00/01 869 



I. Grundlage des Berichts 

1 . Hinsichtlich der Bestandteile der internationalen Anmeldung (Ersatzblatter, die dem Anmeldeamt auf eine 
Aufforderung nach Artikel 14 hin vorgelegt wurden, gelten im Rahmen dieses Berichts als "ursprung/ich 
eingereicht" und sind ihm nicht beigefugt, weil sie keine Anderungen enthaiten (Regein 70. 16 und 70.17)): 
Beschreibung, Seiten: 

1-69 ursprungliche Fassung 



Patentanspruche, Nr.: 

17-181 ursprungliche Fassung 

1-16 eingegangen am 13/09/2001 mit Schreiben vom 12/09/2001 



Zeichnungen, Blatter: 

1/41-41/41 ursprungliche Fassung 



2. Hinsichtlich der Sprache: Alle vorstehend genannten Bestandteile standen der Behorde in der Sprache, in der 
die Internationale Anmeldung eingereicht worden ist, zur Verfugung Oder wurden in dieser eingereicht, sofern 
unter diesem Punkt nichts anderes angegeben ist. 

Die Bestandteile standen der Behorde in der Sprache: zur Verfugung bzw. wurden in dieser Sprache 
eingereicht; dabei handelt es sich um 

□ die Sprache der Obersetzung, die fur die Zwecke der internationalen Recherche eingereicht worden ist (nach 
Regel 23.1(b)). 

□ die Veroffentlichungssprache der internationalen Anmeldung (nach Regel 48.3(b)). 

□ die Sprache der Obersetzung, die fur die Zwecke der internationalen vorlaufigen Prufung eingereicht worden 
ist (nach Regel 55.2 und/oder 55.3). 

3. Hinsichtlich der in der internationalen Anmeldung offenbarten Nucleotid- und/oder Aminosauresequenz ist die 
internationale vorlaufige Prufung auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das: 

□ in der internationalen Anmeldung in schriftlicher Form enthaiten ist. 

□ zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in schriftlicher Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in computerlesbarer Form eingereicht worden ist. 

□ Die Erklarung, daG das nachtraglich eingereichte schriftliche Sequenzprotokoll nicht uber den 
Offenbarungsgehalt der internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

□ Die Erklarung, daG die in computerlesbarer Form erfassten Informationen dem schriftlichen 
Sequenzprotokoll entsprechen, wurde vorgelegt. 
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INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE00/01 869 



4. Aufgrund der Anderungen sind folgende Unterlagen fortgefallen: 

□ Beschreibung, Seiten: 

□ Anspruche, Nr.: 

□ Zeichnungen, Blatt: 

5. □ Dieser Bericht ist ohne Berucksichtigung (von einigen) der Anderungen erstellt worden, da diese aus den 

angegebenen Grunden nach Auffassung der Behorde uber den Offenbarungsgehalt In der ursprunglich 
eingereichten Fassung hinausgehen (Regel 70.2(c)). 

(Auf Ersatzblatter, die so/che Anderungen enthalten, ist unter Punkt 1 hinzuweisen;sie sind diesem Bericht 
beizufugen). 



6. Etwaige zusatzliche Bemerkungen: 



III. Keine Erstellung eines Gutachtens uber Neuheit, erfinderische Tatigkeit und gewerbliche Anwendbarkeit 

1. Folgende Telle der Anmeldung wurden nlcht daraufhin gepruft, ob die beanspruchte Erfindung als neu, auf 
erfinderischer Tatigkeit beruhend (nicht offensichtlich) und gewerblich anwendbar anzusehen ist: 

□ die gesamte internationale Anmeldung. 
Kl Anspruche Nr. 1-10,16-181. 

Begrundung: 

□ Die gesamte internationale Anmeldung, bzw. die obengenannten Anspruche Nr. beziehen sich auf den 
nachstehenden Gegenstand, fur den keine internationale vorlaufige Prufung durchgefuhrt werden braucht 
(genaue Angaben): 



Die Beschreibung, die Anspruche Oder die Zeichnungen (machen Sie hierzu nachstehend genaue Angaben) 
oder die obengenannten Anspruche Nr. 1-10,16 sind so unklar, daf3 kein sinnvolles Gutachten erstellt 
werden konnte (genaue Angaben): 
stehe Beiblatt 

□ Die Anspruche bzw. die obengenannten Anspruche Nr. sind so unzureichend durch die Beschreibung 
gestutzt, daf3 kein sinnvolles Gutachten erstellt werden konnte. 

[3 Fur die obengenannten Anspruche Nr. 17-181 wurde kein internationaler Recherchenbericht erstellt. 

2. Eine sinnvolle internationale vorlaufige Prufung kann nicht durchgefuhrt werden, weil das Protokoll der Nukleotid- 
und/oder Aminosauresequenzen nicht dem in Anlage C der Verwaltungsvorschriften vorgeschriebenen Standard 
entspricht: 

□ Die schriftliche Form wurde nicht eingereicht bzw. entspricht nicht dem Standard. 

□ Die computerlesbare Form wurde nicht eingereicht bzw. entspricht nicht dem Standard. 
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INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE00/01 869 



IV. Mangefnde Einheitlichkeit der Erfindung 

1 . Auf die Aufforderung zur Einschrankung der Anspruche Oder zur Zahlung zusatzlicher Gebuhren hat der 
Anmelder: 

□ die Anspruche eingeschrankt. 

□ zusatzliche Gebuhren entrichtet. 

□ zusatzliche Gebuhren unter Widerspruch entrichtet. 

□ weder die Anspruche eingeschrankt noch zusatzliche Gebuhren entrichtet. 

2. JS Die Behorde hat festgestellt, daB das Erfordernis der Einheitlichkeit der Erfindung nicht erfullt ist, und hat 

gemaB Regel 68.1 beschlossen, den Anmelder nicht zur Einschrankung der Anspruche oder zur Zahlung 
zusatzlicher Gebuhren aufzufordern. 

3. Die Behorde ist der Auffassung, daB das Erfordernis der Einheitlichkeit der Erfindung nach den Regeln 13.1, 13.2 
und 13.3 

□ erfullt ist 

^ aus folgenden Grtinden nicht erfullt ist: 
siehe Beiblatt 

4. Daher wurde zur Erstellung dieses Berichts eine internationale vorlaufige Prufung fur folgende Teile der 
internationalen Anmeldung durchgefuhrt: 

□ alie Teile. 

die Teile, die sich auf die Anspruche Nr. 1-16 beziehen. 



V. Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 

1. Feststellung 

Neuheit (N) Ja: Anspruche 12-15 

Nein: Anspruche 1 1 

Erfinderische Tatigkeit (ET) Ja: Anspruche 

Nein: Anspruche 12-15 

Gewerbliche Anwendbarkeit (GA) Ja: Anspruche 11-15 

Nein: Anspruche 



2. Unterlagen und Erklarungen 
siehe Beiblatt 
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INTERNATIONALER VORLAUFIGER 

PRUFUNGSBERICHT Internationales Aktenzeichen PCT/DE00/01 869 



VIII. Bestimmte Bemerkungen zur internationalen Anmeldung 

Zur Klarheit der Patentanspruche, der Beschreibung und der Zeichnungen Oder zu der Frage, ob die Anspruche 
in vollem Umfang durch die Beschreibung gestutzt werden, ist folgendes zu bemerken: 
siehe Beiblatt 
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INTERNATIONALER VORLAUFIGER Internationales Aktenzeichen PCT/DE00/01 869 
PRUFUNGSBERICHT - BEIBLATT 



1. zu Sektion IV: 

Die verschiedenen Erfindungen sind: 

1.1 Gegenstande der Anspruche 1 bis 10; 

1 .2 Gegenstande der Anspruche 11 bis 1 6. 

Aus den folgenden Griinden hangen diese Erfindungen nicht so zusammen, daB 
sie eine einzige allgemeine erfinderische Idee verwirklichen (Regel 13.1 PCT): 

Die Gegenstande der Anspruche 1 bis 10 betreffen ein Verfahren zur 
Programmierung von Bausteinen mit ein- oder mehrdimensionaler Zellstruktur, 
wobei ein DatenfluBgraph und ein KontrollfluBgraph eines Programms extrahiert 
wird, zu dem KontrollfluBgraphen Statussignale bestimmt werden und die 
Graphen unter Berucksichtigung ubertragener Statussignale entkoppelt 
abgearbeitet werden. 

Dagegen betreffen die Gegenstande der Anspruche 12 bis 16 ein Verfahren zur 
Programmierung von Bausteinen mit ein -oder mehrdimensionaler Zellstruktur, 
das lediglich dadurch gekennzeichnet ist, daB jedem Datensignal und/oder 
Statussignal ein Zustand zugeordnet wird, der anzeigt ob das Signal gultig ist oder 
nicht. 

Sonach besteht zwischen diesen Erfindungen kein erkennbarer technischer 
Zusammenhang, der in einem oder mehreren gleichen oder entsprechenden 
besonderen technischen Merkmalen im Sinne von Regel 13.2 PCT zum Ausdruck 
kommt. 



2. zu Sektion V: 

2.1 Es wird auf folgendes Dokument verwiesen: 
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INTERNATIONALER VORLAUFIGER Internationales Aktenzeichen PCT/DE00/01 869 
PRUFUNGSBERICHT - BEIBLATT 



D1 =DE-A-196 51 075. 

2.2 D1 (siehe Seite 1 , Zeilen 5 bis 47) betrifft ein Verfahren zur Programmierung 
(Konfiguration und Umkonfiguration) von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur. Bei diesem bekannten Verfahren wird jedem 
Datensignal ein Zustand (oRDY, rRDY) zugeordnet, der anzeigt ob das Signal 
gultig ist oder nicht; vgl. D1, Seite 4, Zeilen 19 bis 33. 

Der Gegenstand des Anspruchs 1 1 ist daher nicht neu. 

2.3 Es ist fur den Fachmann naheliegend das durch D1 bekannte, genannte Prinzip 
der Zustandszuordnung nicht nur auf jedes Datensignal, sondern auch auf jedes 
Statussignal anzuwenden, zumal D1 (siehe Seite 4, Zeilen 10 und 1 1 und Seite 5, 
Zeilen 14 und 15) bereits explizit vorschlagt, daB die Sync-UNIT, die eine Reihe 
von Eingangssignalen, die ein Handshakeprotokoll ausfuhren, auswertet, 
ebenfalls dazu verwendet werden kann Fehlerzustande oder weitere 
Statussignale zu generieren und auszuwerten. 

Daher beruht der Gegenstand des Anspruchs 12 nicht auf einer erfinderischen 
Tatigkeit. 

2.4 Die Gegenstande der abhangigen Anspruche 14 bis 15 enthalten keine 
zusatzlichen Merkmale, die auf einer erfinderischen Tatigkeit beruhen: 

Das in Anspruch 14 eingefuhrte Merkmal ist durch D1 (siehe Seite 4, Zeilen 13 bis 
18) vorweggenommen. 

Das in Anspruch 15 eingefuhrte Merkmal wird durch das Zustandssignal oACK 
von D1 (siehe Seite 4, Zeilen 34 und 35) bereits nahegelegt, da dieses 
Zustandssignal anzeigt, daB ein Empfanger neue Daten aufnehmen kann, d.h. 
erwartet. 

Da es sich bei dem Stand der Technik nach D1 (siehe Seite 4, Zeile 1 1) um ein 
Handshakeprotokoll handelt, ist das in Anspruch 16 eingefuhrte Merkmal fur den 
Fachmann selbstverstandlich. 
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3. zu Sektion VIII: 



Die Anmeldung erfullt in folgender Hinsicht nicht die Erfordernisse des Art. 6 PCT: 

3.1 Das letzte Merkmal des Anspruch 1 ist nicht hinreichend klar. Im besonderen 1st 
unklar dass "die Graphen", d.h. der DatenfluBgraph und der KontrollfluBgraph 
"unter Berucksichtigung ubertragener Statussignale entkoppelt abgearbeitet 
werden", wohingegen gemaB dem vorletzten Merkmal des Anspruchs 1 
Statussignale lediglich zu dem KontrollfluBgraphen bestimmt werden. 

3.2 Die Anspruche 2, 4, 5 und 10 sind in ihrer Abhangigkeit von Anspruch 1 nicht klar, 
da die Information fehlt, daB die beanspruchten Teilgraphen durch Zerlegung des 
DatenfluBgraphen sowie des KontrollfluBgraphen entstehen (vgl. die Anspruche 2 
bis 5 und 11). 

3.3 Die Beschreibung erscheint unvollstandig, da weitere Angaben zu Abkurzungen 
(PACTO... oder PACT1...) fehlen, die offensichtlich Stand der Technik bezeichnen 
sollen (vgl. z.B. Seite 5, Absatz 2, Seite 17, Absatz 2, Seite 24, Absatz 3 sowie die 
Seiten 46, 52 bis 54, 56 und 65). 
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Pa -ben tan spriiche 

1. Verfahren zur Programmierung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur , 

wobei 

ein' Datenfluft- und ein Kontrollf luftgraph eines Pro- 

• gramms extrahiert wird, 

zu dem Kontrollf lufigraphen Statussignale bestimmt 
werden, die geeignet sind,- die Gultigkeit einer Verarbei- 
tung anzuzeigen und/oder zur Umkonf igurationsauslosung an 
eine ubergeordnete Einheit gefuhrt zu werden 

und 

die Graphen unter Berucksichtigung ubertragener Sta- • 
tussignale entkoppelt abgearbeitet werden. 

2 . . ' ..Verfahren nach einem def vorhergehenden Anspruche, dadurch 

* gekennzeichnet,. daft innerhalb eines Teilgraphen Sta- 
tussignale zwischen .den Knot-en"? ubertragen werden,;- die.-.den 

"Zustand- jedes einzelnen Knotens j.edem anderen .Knoten soweit 
zur Verfugung stellen; 

3. " ■ Verfahren naeh einem der vorhergehenden Anspruche, dadurch 

ge'ken'nzeichnet, daft eine Menge von Statussigna'len an eine 
.ubergeordnete Einheit, die die Konf iguratipn der Zellen 
steuert, gefuhrt .wird, um eine Umkonf iguration auszulosen. 

4-*. - Verfahren' nach einem" der -vorhergehenden Anspruche/ dadurch 
gekennzeichnet, daft. 

eine. Menge yon Statussignalen an "eine ubergeordnete Ein- 
heit, die die Konf iguration der Zellen steuert, gefuhrt 
wird, um einen Zustand an einen nicht in die Zellstruktur 
geladenen Teilgraphen zu ubermitteln. 

5. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft die Teilgraphen liber mehrere Bau'steine 
verteilt werden. 

6. Verfahren nach einem der- vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft die Graphen der art in mehrere Teilgra- 
phen zerlegt werden, daft moglichst wenig Verbindungen zwi- 
schen den Teilgraphen bestehen. 

7. Verfahren nach einem der .vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft die Graphen derart in mehrere Teilgra- 
phen zerlegt werden, daft moglichst wenig Daten zwischen den 
Teilgraphen ubertragen werden.. 
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8. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft die Graphen derart in mehrere Teilgra- 
phen zerlegt werden, dali moglichst keine Ruckkoppelungen 
zwischen den Teilgraphen bestehen . 

9. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dali die Graphen derart in mehrere Teilgra- 

. phen zerlegt werden, dali- die Teilgraphen jeweils moglichst 
exakt den Ressourcen des Bausteines angepaiit sind. 

10. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dali zwischen den Teilgraphen Speicherele- 
mente zur Sicherung der Daten und Zustande eingefuhrt wer- 
den . 

.11. Verfahren zur Programmier'ung von Bausteinen mit ein- oder 
mehrdimensionaler Zellstruktur, dadurch gekennzeichet , dali 
jedem Datensignal ein Zustand zugeordnet wird, der anzeigt, 
ob das Signal gultig ist oder nicht (RDY) . 

12. Verfahren zur Programmierung von Bausteinen mit ein- oder 
. v •• mehrdimensionaler Zellstruktur > dadurch . gekennzeichet, dali 

jedem Statussignal ein Zustand zugeordnet wird, der anzeigt 

ob das Signal gultig ist oder nicht (RDY) . 

13 Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dali der Empfanger eines gultigen Signales 
den Empfang quittiert (ACK) . 

14. Verfahren nach einem der vorhergehenden Anspruche, . dadurch 
gekennzeichnet, dali der * Empf anger anzeigt, dali er ein. Si- 
gnal erwartet (REQ) . 

15. Verfahren nach Anspruch 15-, dadurch gekennzeichnet, dali 
der Sender anzeigt, das erwartete Signal zu senden. 

16-. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, -dali mehrere" Pfade einer Anweisung, von de- 
nen je .nach Auswertung der Anweisung* (IF, CASE) immer exakt 
einer ausgefuhrt wird, derart zerlegt werden, dali jeder 
Pfad einen Teilgraph ergibt . 
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